論文の概要: Mitigating Biases in Toxic Language Detection through Invariant
Rationalization
- arxiv url: http://arxiv.org/abs/2106.07240v1
- Date: Mon, 14 Jun 2021 08:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:11:10.641952
- Title: Mitigating Biases in Toxic Language Detection through Invariant
Rationalization
- Title(参考訳): 不変合理化による有害言語検出におけるバイアス緩和
- Authors: Yung-Sung Chuang, Mingye Gao, Hongyin Luo, James Glass, Hung-yi Lee,
Yun-Nung Chen, Shang-Wen Li
- Abstract要約: 性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
- 参考スコア(独自算出の注目度): 70.36701068616367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic detection of toxic language plays an essential role in protecting
social media users, especially minority groups, from verbal abuse. However,
biases toward some attributes, including gender, race, and dialect, exist in
most training datasets for toxicity detection. The biases make the learned
models unfair and can even exacerbate the marginalization of people.
Considering that current debiasing methods for general natural language
understanding tasks cannot effectively mitigate the biases in the toxicity
detectors, we propose to use invariant rationalization (InvRat), a
game-theoretic framework consisting of a rationale generator and a predictor,
to rule out the spurious correlation of certain syntactic patterns (e.g.,
identity mentions, dialect) to toxicity labels. We empirically show that our
method yields lower false positive rate in both lexical and dialectal
attributes than previous debiasing methods.
- Abstract(参考訳): 有害言語の自動検出は、ソーシャルメディア利用者、特に少数民族を言葉による虐待から守る上で重要な役割を担っている。
しかしながら、性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在している。
バイアスは学習したモデルを不公平にし、人々の限界化をさらに悪化させる。
一般自然言語理解タスクにおける現在のデバイアス手法は,毒性検出器のバイアスを効果的に軽減することができないことを考慮し,合理的生成器と予測器からなるゲーム理論の枠組みであるinvariant rationalization (invrat) を用いて,特定の構文パターン(例えば同一性参照,方言)と毒性ラベルとのスパーラスな相関を除外する。
本手法は,従来のデバイアス法よりも語彙特性および方言特性の偽陽性率が低いことを実証的に示す。
関連論文リスト
- Power of Explanations: Towards automatic debiasing in hate speech
detection [19.26084350822197]
ヘイトスピーチ検出は、自然言語処理(NLP)の現実世界における一般的なダウンストリームアプリケーションである。
本稿では,潜在的なバイアスを検出するための説明手法を頼りに,自動誤用検知(MiD)を提案する。
論文 参考訳(メタデータ) (2022-09-07T14:14:03Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。
その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-30T18:25:18Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。