論文の概要: Take its Essence, Discard its Dross! Debiasing for Toxic Language Detection via Counterfactual Causal Effect
- arxiv url: http://arxiv.org/abs/2406.00983v1
- Date: Mon, 3 Jun 2024 04:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:27:34.809476
- Title: Take its Essence, Discard its Dross! Debiasing for Toxic Language Detection via Counterfactual Causal Effect
- Title(参考訳): 有害言語検出における非現実的因果効果による嫌悪感
- Authors: Junyu Lu, Bo Xu, Xiaokun Zhang, Kaiyuan Liu, Dongyu Zhang, Liang Yang, Hongfei Lin,
- Abstract要約: 有害言語検出(TLD)における語彙バイアスを軽減するために, CCDF(Counterfactal Causal Debiasing Framework)を提案する。
CCDFは語彙バイアスの「無駄な影響」を保ち、「誤解を招く影響」を排除している
- 参考スコア(独自算出の注目度): 23.628565620485364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current methods of toxic language detection (TLD) typically rely on specific tokens to conduct decisions, which makes them suffer from lexical bias, leading to inferior performance and generalization. Lexical bias has both "useful" and "misleading" impacts on understanding toxicity. Unfortunately, instead of distinguishing between these impacts, current debiasing methods typically eliminate them indiscriminately, resulting in a degradation in the detection accuracy of the model. To this end, we propose a Counterfactual Causal Debiasing Framework (CCDF) to mitigate lexical bias in TLD. It preserves the "useful impact" of lexical bias and eliminates the "misleading impact". Specifically, we first represent the total effect of the original sentence and biased tokens on decisions from a causal view. We then conduct counterfactual inference to exclude the direct causal effect of lexical bias from the total effect. Empirical evaluations demonstrate that the debiased TLD model incorporating CCDF achieves state-of-the-art performance in both accuracy and fairness compared to competitive baselines applied on several vanilla models. The generalization capability of our model outperforms current debiased models for out-of-distribution data.
- Abstract(参考訳): 現在の有害言語検出法(TLD)は、通常、決定を行うための特定のトークンに依存しており、それらが語彙バイアスに悩まされ、性能や一般化が低下する。
語彙バイアスは「有用」と「誤解」の両方が毒性の理解に影響を及ぼす。
残念なことに、これらの影響を区別する代わりに、現在のデバイアス法は一般的にそれらを無差別に排除し、結果としてモデルの検出精度が低下する。
そこで本研究では,TLDにおける語彙バイアスを軽減するために,CCDF(Counterfactual Causal Debiasing Framework)を提案する。
語彙バイアスの「無駄な影響」を保ち、「誤解を招く影響」を排除している。
具体的には、まず、原文と偏見付きトークンの合計効果を因果的視点から判断する。
次に、語彙バイアスの直接的な因果効果を全体効果から排除するために、反事実推論を行う。
CCDFを組み込んだデバイアスドTLDモデルは,複数のバニラモデルに適用した競合ベースラインと比較して,精度と公正性の両方で最先端の性能を発揮することを示す実証評価を行った。
我々のモデルの一般化能力は、分布外データに対する現在のデバイアスモデルより優れています。
関連論文リスト
- Applying Intrinsic Debiasing on Downstream Tasks: Challenges and Considerations for Machine Translation [19.06428714669272]
内在的デバイアスの手法がニューラルマシン翻訳モデルにどのように影響するかを系統的に検証する。
私たちは、デバイアスングテクニックとエンドゴール使用の3つの課題とミスマッチを強調します。
論文 参考訳(メタデータ) (2024-06-02T15:57:29Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Debiasing should be Good and Bad: Measuring the Consistency of Debiasing
Techniques in Language Models [9.90597427711145]
デバイアス法は言語モデル(LM)の傾向を緩和し、時々有害なテキストや不適切なテキストを出力する。
本稿では,望ましい結果を得るだけでなく,そのメカニズムや仕様と整合性を持つメソッドを識別する標準化されたプロトコルを提案する。
我々のプロトコルは、見過ごされる可能性のあるデバイアス手法の一般化可能性と解釈可能性に関する重要な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-23T17:45:54Z) - On Bias and Fairness in NLP: Investigating the Impact of Bias and Debiasing in Language Models on the Fairness of Toxicity Detection [7.297345802761503]
表現バイアス、選択バイアス、過剰増幅バイアスが研究されている。
過度増幅バイアスは毒性検出のタスクの公平性に対する最も影響の大きいバイアスであることを示す。
毒性検出のタスクの公平性を確保するためのガイドラインの一覧を紹介する。
論文 参考訳(メタデータ) (2023-05-22T08:44:00Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。