論文の概要: Side-by-side Comparison Amplifies Dialect Bias in Language Models
- arxiv url: http://arxiv.org/abs/2605.24384v2
- Date: Thu, 28 May 2026 23:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 17:23:47.261912
- Title: Side-by-side Comparison Amplifies Dialect Bias in Language Models
- Title(参考訳): 言語モデルにおける方言バイアスの左右比較
- Authors: Kritee Kondapally, Claire J. Smerdon, Pooja C. Patel, Ogheneyoma Akoni, Jevon Torres, Jaspreet Ranjit, Matthew Finlayson, Swabha Swayamdipta,
- Abstract要約: 言語モデル(LM)は、方言のバリエーションに基づいたバイアスを示すことができる。
我々は、LMが定型的特徴と意図等価なつぶやきをどう関連づけるかを評価することで、隠れ方言バイアスを定量化する。
- 参考スコア(独自算出の注目度): 13.147713730335775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) can exhibit biases based on variations in their dialects, even in the absence of a dialect label, a behavior known as covert dialect bias. In this work, we quantify covert dialect bias in online discourse by evaluating how LMs associate stereotypical traits (derived from social psychology research on racial bias) with intent-equivalent tweets in Standard American English (SAE) and African-American Vernacular English (AAVE). While prior work shows that LMs associate more negative stereotypes with AAVE when evaluating tweets in isolation, we are surprised to find that this bias is significantly exacerbated when SAE / AAVE tweet pairs are compared side by side, a setting that more closely reflects high-impact decision making contexts in which models are used to rank candidates. The bias only worsens when dialect labels are explicitly specified. This is striking, given the extensive efforts from commercial developers to mitigate bias in their LMs. Encouragingly, we show that counterfactual fairness finetuning can mitigate covert dialect bias for some stereotypical traits, reducing average disparities when evaluating tweets in isolation, however, these improvements do not consistently hold across traits when evaluating SAE / AAVE tweets side by side. Our findings show that existing evaluation settings for covert dialect bias may underestimate its severity, specifically in contrastive settings. Additionally, overt dialect bias remains pronounced even after safety aligned finetuning, indicating that it remains an unresolved problem, and motivates the need for more robust evaluation and mitigation frameworks.
- Abstract(参考訳): 言語モデル(LM)は、方言ラベルがない場合でも、方言のバリエーションに基づいてバイアスを示すことができる。
本研究では,標準アメリカ英語(SAE)とアフリカ系アメリカ人言語英語(AAVE)の定型的特徴(人種的偏見に関する社会心理学的研究に由来する)と意図等価なつぶやきをどのように関連づけるかを評価することで,オンライン談話における隠れ方言バイアスを定量化する。
SAE/AAVEのツイートペアを並べて比較すると,このバイアスが著しく悪化していることに驚きます。
バイアスは、方言ラベルが明示的に指定されたときにのみ悪化する。
LMのバイアスを軽減するために、商用開発者による大規模な取り組みを考えると、これは驚くべきことです。
SAE/AAVEのツイートを並べて評価する場合には,非現実的公平さの微調整は,ある種のステレオタイプの特徴に対する隠蔽弁別バイアスを緩和し,個別にツイートを評価する際の平均的な格差を低減できるが,これらの改善は特徴を横断的に保持するものではない。
以上の結果から,既存の有意な方言バイアスの評価設定は,特に対照的な設定において,その重症度を過小評価する可能性が示唆された。
さらに、過度な方言バイアスは、安全に整合した微調整の後でも発音され続けており、未解決の問題のままであり、より堅牢な評価と緩和フレームワークの必要性を動機付けていることを示している。
関連論文リスト
- Reinforcing Stereotypes of Anger: Emotion AI on African American Vernacular English [46.47177439553625]
本研究は、一般アメリカ英語(GAE)と比較して、アフリカ系アメリカ人言語英語(AAVE)における感情認識モデルの性能について検討する。
ロサンゼルスでは270万のツイートがジオタグ付けされている。
アフリカ系アメリカ人の住民の割合が高い地区は怒りの予測が大きくなることが観察された。
論文 参考訳(メタデータ) (2025-11-13T23:13:08Z) - Aligned but Blind: Alignment Increases Implicit Bias by Reducing Awareness of Race [14.700348476541684]
文脈が曖昧である場合, 言語モデル(LM)は, 初期内部表現における人種概念を無視することを示す。
本稿では,初期モデル層における人種概念の表現を動機付けることによって,新たなバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-05-30T21:41:44Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。