論文の概要: Mitigating Racial Biases in Toxic Language Detection with an
Equity-Based Ensemble Framework
- arxiv url: http://arxiv.org/abs/2109.13137v1
- Date: Mon, 27 Sep 2021 15:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 20:05:50.695223
- Title: Mitigating Racial Biases in Toxic Language Detection with an
Equity-Based Ensemble Framework
- Title(参考訳): Equity-based Ensemble Frameworkを用いた有害言語検出におけるRacial Biaseの緩和
- Authors: Matan Halevy, Camille Harris, Amy Bruckman, Diyi Yang, Ayanna Howard
- Abstract要約: 最近の研究では、アフリカ系アメリカ人の英語を書いているユーザーに対する人種的偏見が、人気のある有毒な言語データセットに存在することが示されている。
これらのバイアスの発生源をよりよく理解するために、さらに説明的公正度指標を提案する。
提案手法は,モデルがこれらのデータセットから学習する人種的バイアスを大幅に低減することを示す。
- 参考スコア(独自算出の注目度): 9.84413545378636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has demonstrated how racial biases against users who write
African American English exists in popular toxic language datasets. While
previous work has focused on a single fairness criteria, we propose to use
additional descriptive fairness metrics to better understand the source of
these biases. We demonstrate that different benchmark classifiers, as well as
two in-process bias-remediation techniques, propagate racial biases even in a
larger corpus. We then propose a novel ensemble-framework that uses a
specialized classifier that is fine-tuned to the African American English
dialect. We show that our proposed framework substantially reduces the racial
biases that the model learns from these datasets. We demonstrate how the
ensemble framework improves fairness metrics across all sample datasets with
minimal impact on the classification performance, and provide empirical
evidence in its ability to unlearn the annotation biases towards authors who
use African American English.
** Please note that this work may contain examples of offensive words and
phrases.
- Abstract(参考訳): 最近の研究では、アフリカ系アメリカ人英語を書くユーザーに対する人種バイアスが、人気のある有害言語データセットにどのように存在するかが示されている。
これまでの研究では,単一の公平性基準に注目してきたが,これらのバイアスの原因をよりよく理解するために,記述的公平性指標を追加することを提案する。
異なるベンチマーク分類器と2つのプロセス内バイアス修正手法が、より大きなコーパスにおいても人種バイアスを伝播することを示した。
次に,アフリカ系アメリカ人英語方言に微調整された特殊分類器を用いた新しいアンサンブル枠組みを提案する。
提案するフレームワークは,モデルがこれらのデータセットから学習する人種バイアスを実質的に低減する。
アンサンブルフレームワークがすべてのサンプルデータセットのフェアネスメトリクスをどのように改善するかを、分類性能に最小限の影響で実証し、アフリカ系アメリカ人英語を使用する著者に対して、注釈バイアスを解き放つ能力に関する実証的な証拠を提供する。
※この作品には、不快な言葉や句の例があるかもしれないことに留意してください。
関連論文リスト
- Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties [0.0]
私たちは、その根本にあるバイアス(データそのもの)の問題に対処することを目指しています。
英語の多言語話者の割合が低い国からのツイートのデータセットをキュレートする。
ベストプラクティスに従って、我々の成長するコーパスには7カ国から170,800のツイートが写っている。
論文 参考訳(メタデータ) (2024-01-21T13:18:20Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - On Bias and Fairness in NLP: How to have a fairer text classification? [4.22187135718126]
過剰増幅バイアスは、テキスト分類の公平性に最も影響のあるバイアスである。
本研究は,本研究の成果に基づいて,より公平なテキスト分類モデルを構築するための実践的ガイドラインを導入する。
論文 参考訳(メタデータ) (2023-05-22T08:44:00Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification [36.361778457307636]
ディープテキスト分類モデルは、特定の人口統計グループの著者によって書かれたテキストのバイアス結果を生成することができます。
本論文では,異なる人口集団の異なるテキスト分類タスクに暗黙のバイアスが存在することを示す。
そして、暗黙のバイアスの知識を深めるために、学習に基づく解釈方法を構築します。
論文 参考訳(メタデータ) (2021-05-06T16:17:38Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z) - Examining Racial Bias in an Online Abuse Corpus with Structural Topic
Modeling [0.30458514384586405]
我々は、ソーシャルメディア投稿における人種的偏見を調べるために、構造的トピックモデリングを用いる。
我々は、アフリカ系アメリカ人の英語で書かれたツイートの予測確率を示す追加機能を追加することにより、乱用言語データセットを増強する。
論文 参考訳(メタデータ) (2020-05-26T21:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。