論文の概要: Mitigating Racial Biases in Toxic Language Detection with an
Equity-Based Ensemble Framework
- arxiv url: http://arxiv.org/abs/2109.13137v1
- Date: Mon, 27 Sep 2021 15:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 20:05:50.695223
- Title: Mitigating Racial Biases in Toxic Language Detection with an
Equity-Based Ensemble Framework
- Title(参考訳): Equity-based Ensemble Frameworkを用いた有害言語検出におけるRacial Biaseの緩和
- Authors: Matan Halevy, Camille Harris, Amy Bruckman, Diyi Yang, Ayanna Howard
- Abstract要約: 最近の研究では、アフリカ系アメリカ人の英語を書いているユーザーに対する人種的偏見が、人気のある有毒な言語データセットに存在することが示されている。
これらのバイアスの発生源をよりよく理解するために、さらに説明的公正度指標を提案する。
提案手法は,モデルがこれらのデータセットから学習する人種的バイアスを大幅に低減することを示す。
- 参考スコア(独自算出の注目度): 9.84413545378636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has demonstrated how racial biases against users who write
African American English exists in popular toxic language datasets. While
previous work has focused on a single fairness criteria, we propose to use
additional descriptive fairness metrics to better understand the source of
these biases. We demonstrate that different benchmark classifiers, as well as
two in-process bias-remediation techniques, propagate racial biases even in a
larger corpus. We then propose a novel ensemble-framework that uses a
specialized classifier that is fine-tuned to the African American English
dialect. We show that our proposed framework substantially reduces the racial
biases that the model learns from these datasets. We demonstrate how the
ensemble framework improves fairness metrics across all sample datasets with
minimal impact on the classification performance, and provide empirical
evidence in its ability to unlearn the annotation biases towards authors who
use African American English.
** Please note that this work may contain examples of offensive words and
phrases.
- Abstract(参考訳): 最近の研究では、アフリカ系アメリカ人英語を書くユーザーに対する人種バイアスが、人気のある有害言語データセットにどのように存在するかが示されている。
これまでの研究では,単一の公平性基準に注目してきたが,これらのバイアスの原因をよりよく理解するために,記述的公平性指標を追加することを提案する。
異なるベンチマーク分類器と2つのプロセス内バイアス修正手法が、より大きなコーパスにおいても人種バイアスを伝播することを示した。
次に,アフリカ系アメリカ人英語方言に微調整された特殊分類器を用いた新しいアンサンブル枠組みを提案する。
提案するフレームワークは,モデルがこれらのデータセットから学習する人種バイアスを実質的に低減する。
アンサンブルフレームワークがすべてのサンプルデータセットのフェアネスメトリクスをどのように改善するかを、分類性能に最小限の影響で実証し、アフリカ系アメリカ人英語を使用する著者に対して、注釈バイアスを解き放つ能力に関する実証的な証拠を提供する。
※この作品には、不快な言葉や句の例があるかもしれないことに留意してください。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties [0.0]
私たちは、その根本にあるバイアス(データそのもの)の問題に対処することを目指しています。
英語の多言語話者の割合が低い国からのツイートのデータセットをキュレートする。
ベストプラクティスに従って、我々の成長するコーパスには7カ国から170,800のツイートが写っている。
論文 参考訳(メタデータ) (2024-01-21T13:18:20Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification [36.361778457307636]
ディープテキスト分類モデルは、特定の人口統計グループの著者によって書かれたテキストのバイアス結果を生成することができます。
本論文では,異なる人口集団の異なるテキスト分類タスクに暗黙のバイアスが存在することを示す。
そして、暗黙のバイアスの知識を深めるために、学習に基づく解釈方法を構築します。
論文 参考訳(メタデータ) (2021-05-06T16:17:38Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z) - Examining Racial Bias in an Online Abuse Corpus with Structural Topic
Modeling [0.30458514384586405]
我々は、ソーシャルメディア投稿における人種的偏見を調べるために、構造的トピックモデリングを用いる。
我々は、アフリカ系アメリカ人の英語で書かれたツイートの予測確率を示す追加機能を追加することにより、乱用言語データセットを増強する。
論文 参考訳(メタデータ) (2020-05-26T21:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。