論文の概要: Bi-Attention HateXplain : Taking into account the sequential aspect of data during explainability in a multi-task context
- arxiv url: http://arxiv.org/abs/2601.13018v1
- Date: Mon, 19 Jan 2026 12:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.903132
- Title: Bi-Attention HateXplain : Taking into account the sequential aspect of data during explainability in a multi-task context
- Title(参考訳): Bi-Attention HateXplain : マルチタスクコンテキストにおける説明可能性におけるデータのシーケンシャルな側面に着目して
- Authors: Ghislain Dorian Tchuente Mondjo,
- Abstract要約: LLMと比較して説明しやすいBiAtt-BiRNN-HateXplain(Bidirectional Attention BiRNN HateXplain)モデルを提案する。
このモデルは、より良い分類をし、コミュニティに関連する意図しないバイアスのエラーを減らすことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Technological advances in the Internet and online social networks have brought many benefits to humanity. At the same time, this growth has led to an increase in hate speech, the main global threat. To improve the reliability of black-box models used for hate speech detection, post-hoc approaches such as LIME, SHAP, and LRP provide the explanation after training the classification model. In contrast, multi-task approaches based on the HateXplain benchmark learn to explain and classify simultaneously. However, results from HateXplain-based algorithms show that predicted attention varies considerably when it should be constant. This attention variability can lead to inconsistent interpretations, instability of predictions, and learning difficulties. To solve this problem, we propose the BiAtt-BiRNN-HateXplain (Bidirectional Attention BiRNN HateXplain) model which is easier to explain compared to LLMs which are more complex in view of the need for transparency, and will take into account the sequential aspect of the input data during explainability thanks to a BiRNN layer. Thus, if the explanation is correctly estimated, thanks to multi-task learning (explainability and classification task), the model could classify better and commit fewer unintentional bias errors related to communities. The experimental results on HateXplain data show a clear improvement in detection performance, explainability and a reduction in unintentional bias.
- Abstract(参考訳): インターネットやオンラインソーシャルネットワークの技術的進歩は、人類に多くの利益をもたらした。
同時に、この成長はヘイトスピーチの増加につながった。
ヘイトスピーチ検出に使用されるブラックボックスモデルの信頼性を向上させるため, LIME, SHAP, LRPなどのポストホックアプローチでは, 分類モデルの訓練後の説明を提供する。
対照的に、HateXplainベンチマークに基づくマルチタスクアプローチは、同時に説明と分類を学ぶ。
しかし、HateXplainベースのアルゴリズムによる結果は、予測される注意は一定であるべきときに大きく変化することを示している。
この注意変動は、矛盾した解釈、予測の不安定性、学習困難につながる可能性がある。
この問題を解決するために,BiRNN層による説明容易性による入力データのシーケンシャルな側面を考慮したBiAtt-BiRNN-HateXplain(Bidirectional Attention BiRNN HateXplain)モデルを提案する。
したがって、マルチタスク学習(説明可能性と分類タスク)のおかげで、説明が正しく見積もられた場合、モデルはよりよく分類され、コミュニティに関連する意図しないバイアスエラーが少なくなる可能性がある。
HateXplainデータによる実験結果から,検出性能,説明可能性,意図しないバイアスの低減が明らかとなった。
関連論文リスト
- Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - CLOSER: Towards Better Representation Learning for Few-Shot Class-Incremental Learning [52.63674911541416]
FSCIL(Few-shot class-incremental Learning)は、過剰適合や忘れなど、いくつかの課題に直面している。
FSCILの独特な課題に取り組むため、ベースクラスでの表現学習に重点を置いている。
より制限された機能空間内で機能の拡散を確保することで、学習された表現が、伝達可能性と識別可能性のバランスを良くすることが可能になることが分かりました。
論文 参考訳(メタデータ) (2024-10-08T02:23:16Z) - LLMExplainer: Large Language Model based Bayesian Inference for Graph Explanation Generation [20.234100409015507]
最近の研究は、複数の教師なし学習モデルを通してグラフニューラルネットワーク(GNN)の解釈可能性を提供することを目指している。
データセットが不足しているため、現在の手法ではバイアスの学習が困難になる。
学習バイアス問題を回避するため,GNN説明ネットワークにLarge Language Model (LLM) を知識として組み込む。
論文 参考訳(メタデータ) (2024-07-22T03:36:38Z) - TVE: Learning Meta-attribution for Transferable Vision Explainer [76.68234965262761]
本稿では,下流タスクにおける様々な視覚モデルを効果的に説明できるTransferable Vision Explainer(TVE)を提案する。
TVEは,大規模データセットの事前学習プロセスを通じて,メタ属性の学習を実現する。
このメタ属性は、一般的なバックボーンエンコーダの汎用性を利用して、入力インスタンスの属性知識を包括的にエンコードし、TVEがシームレスに転送し、様々な下流タスクを説明することを可能にする。
論文 参考訳(メタデータ) (2023-12-23T21:49:23Z) - Regressor-Segmenter Mutual Prompt Learning for Crowd Counting [70.49246560246736]
本稿では,アノテーションの差によるバイアスや不正確性を解決するために,相互学習(mPrompt)を提案する。
実験により、mPromptは平均誤差(MAE)を著しく減少させることが示された。
論文 参考訳(メタデータ) (2023-12-04T07:53:59Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Exploring Hate Speech Detection with HateXplain and BERT [2.673732496490253]
ヘイトスピーチは、軽蔑的なコメントでコミュニティを狙うために多くの形態を採り、社会進歩の一歩を遡る。
HateXplainは、音声分類カテゴリとターゲットコミュニティとともに、合理的な形で注釈付きスパンを使用する、最近発表された最初のデータセットである。
このタスクを合理性とクラス予測という形で実行するようにBERTをチューニングし、正確性、説明可能性、バイアスにまたがるさまざまなメトリクスのパフォーマンスを比較します。
論文 参考訳(メタデータ) (2022-08-09T01:32:44Z) - Leveraging Multi-domain, Heterogeneous Data using Deep Multitask
Learning for Hate Speech Detection [21.410160004193916]
畳み込みニューラルネットワークに基づくマルチタスク学習モデル(MTL)フットノートコードを提案し,複数のソースからの情報を活用する。
3つのベンチマークデータセットで実施した実証分析は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-03-23T09:31:01Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。