論文の概要: Mitigating Biases in Toxic Language Detection through Invariant
Rationalization
- arxiv url: http://arxiv.org/abs/2106.07240v1
- Date: Mon, 14 Jun 2021 08:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:11:10.641952
- Title: Mitigating Biases in Toxic Language Detection through Invariant
Rationalization
- Title(参考訳): 不変合理化による有害言語検出におけるバイアス緩和
- Authors: Yung-Sung Chuang, Mingye Gao, Hongyin Luo, James Glass, Hung-yi Lee,
Yun-Nung Chen, Shang-Wen Li
- Abstract要約: 性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
- 参考スコア(独自算出の注目度): 70.36701068616367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic detection of toxic language plays an essential role in protecting
social media users, especially minority groups, from verbal abuse. However,
biases toward some attributes, including gender, race, and dialect, exist in
most training datasets for toxicity detection. The biases make the learned
models unfair and can even exacerbate the marginalization of people.
Considering that current debiasing methods for general natural language
understanding tasks cannot effectively mitigate the biases in the toxicity
detectors, we propose to use invariant rationalization (InvRat), a
game-theoretic framework consisting of a rationale generator and a predictor,
to rule out the spurious correlation of certain syntactic patterns (e.g.,
identity mentions, dialect) to toxicity labels. We empirically show that our
method yields lower false positive rate in both lexical and dialectal
attributes than previous debiasing methods.
- Abstract(参考訳): 有害言語の自動検出は、ソーシャルメディア利用者、特に少数民族を言葉による虐待から守る上で重要な役割を担っている。
しかしながら、性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在している。
バイアスは学習したモデルを不公平にし、人々の限界化をさらに悪化させる。
一般自然言語理解タスクにおける現在のデバイアス手法は,毒性検出器のバイアスを効果的に軽減することができないことを考慮し,合理的生成器と予測器からなるゲーム理論の枠組みであるinvariant rationalization (invrat) を用いて,特定の構文パターン(例えば同一性参照,方言)と毒性ラベルとのスパーラスな相関を除外する。
本手法は,従来のデバイアス法よりも語彙特性および方言特性の偽陽性率が低いことを実証的に示す。
関連論文リスト
- On the Role of Speech Data in Reducing Toxicity Detection Bias [22.44133159647888]
マルチリンガルな MuTox データセットに対して,高品質なグループアノテーションセットを作成する。
次に、これらのアノテーションを利用して、音声およびテキストに基づく毒性分類器を体系的に比較する。
以上の結果から,推測中の音声データへのアクセスは,グループ言及に対する偏見の低減に役立つことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T19:26:43Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - On Bias and Fairness in NLP: Investigating the Impact of Bias and Debiasing in Language Models on the Fairness of Toxicity Detection [7.297345802761503]
表現バイアス、選択バイアス、過剰増幅バイアスが研究されている。
過度増幅バイアスは毒性検出のタスクの公平性に対する最も影響の大きいバイアスであることを示す。
毒性検出のタスクの公平性を確保するためのガイドラインの一覧を紹介する。
論文 参考訳(メタデータ) (2023-05-22T08:44:00Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。
その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-30T18:25:18Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。