論文の概要: Cross-geographic Bias Detection in Toxicity Modeling
- arxiv url: http://arxiv.org/abs/2104.06999v1
- Date: Wed, 14 Apr 2021 17:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 14:19:15.346068
- Title: Cross-geographic Bias Detection in Toxicity Modeling
- Title(参考訳): 毒性モデリングにおけるクロスジオグラフィーバイアス検出
- Authors: Sayan Ghosh, Dylan Baker, David Jurgens, Vinodkumar Prabhakaran
- Abstract要約: より広い地理的文脈における語彙バイアスを頑健に検出する弱教師付き手法を提案する。
提案手法は, 誤りの正当群を同定し, 続いて, その地理的文脈において, 攻撃的・無害な言語に対する人間の判断を反映していることを示す。
- 参考スコア(独自算出の注目度): 9.128264779870538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online social media platforms increasingly rely on Natural Language
Processing (NLP) techniques to detect abusive content at scale in order to
mitigate the harms it causes to their users. However, these techniques suffer
from various sampling and association biases present in training data, often
resulting in sub-par performance on content relevant to marginalized groups,
potentially furthering disproportionate harms towards them. Studies on such
biases so far have focused on only a handful of axes of disparities and
subgroups that have annotations/lexicons available. Consequently, biases
concerning non-Western contexts are largely ignored in the literature. In this
paper, we introduce a weakly supervised method to robustly detect lexical
biases in broader geocultural contexts. Through a case study on
cross-geographic toxicity detection, we demonstrate that our method identifies
salient groups of errors, and, in a follow up, demonstrate that these groupings
reflect human judgments of offensive and inoffensive language in those
geographic contexts.
- Abstract(参考訳): オンラインソーシャルメディアプラットフォームは、ユーザに対する害を軽減するために、大規模な乱用コンテンツを検出するために自然言語処理(NLP)技術にますます依存している。
しかし、これらのテクニックはトレーニングデータに存在する様々なサンプリングや関連バイアスに悩まされ、しばしば限界グループに関連するコンテンツのサブパーパフォーマンスをもたらし、それらに対する不釣り合いな被害を増大させる可能性がある。
このようなバイアスの研究は、アノテーションやレキシコンが利用可能ないくつかの相違点と部分群にのみ焦点を当てている。
その結果、非西洋的文脈に関する偏見は文学においてほとんど無視される。
本稿では,より広い地学的文脈における語彙バイアスを頑健に検出する弱教師付き手法を提案する。
地形的毒性の検出に関するケーススタディを通じて,本手法は誤りの有意義なグループを識別することを示し,その結果,これらのグループ化が,地理的文脈における攻撃的・非攻撃的言語に対する人間の判断を反映していることを示す。
関連論文リスト
- Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - On the Role of Speech Data in Reducing Toxicity Detection Bias [22.44133159647888]
マルチリンガルな MuTox データセットに対して,高品質なグループアノテーションセットを作成する。
次に、これらのアノテーションを利用して、音声およびテキストに基づく毒性分類器を体系的に比較する。
以上の結果から,推測中の音声データへのアクセスは,グループ言及に対する偏見の低減に役立つことが示唆された。
論文 参考訳(メタデータ) (2024-11-12T19:26:43Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - On Bias and Fairness in NLP: Investigating the Impact of Bias and Debiasing in Language Models on the Fairness of Toxicity Detection [7.297345802761503]
表現バイアス、選択バイアス、過剰増幅バイアスが研究されている。
過度増幅バイアスは毒性検出のタスクの公平性に対する最も影響の大きいバイアスであることを示す。
毒性検出のタスクの公平性を確保するためのガイドラインの一覧を紹介する。
論文 参考訳(メタデータ) (2023-05-22T08:44:00Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。