論文の概要: Aligned but Blind: Alignment Increases Implicit Bias by Reducing Awareness of Race
- arxiv url: http://arxiv.org/abs/2506.00253v2
- Date: Thu, 05 Jun 2025 02:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.151203
- Title: Aligned but Blind: Alignment Increases Implicit Bias by Reducing Awareness of Race
- Title(参考訳): アライメント:レースの意識を減らし、アライメントが不必要なバイアスを増加させる
- Authors: Lihao Sun, Chengzhi Mao, Valentin Hofmann, Xuechunzi Bai,
- Abstract要約: 文脈が曖昧である場合, 言語モデル(LM)は, 初期内部表現における人種概念を無視することを示す。
本稿では,初期モデル層における人種概念の表現を動機付けることによって,新たなバイアス緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 14.700348476541684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although value-aligned language models (LMs) appear unbiased in explicit bias evaluations, they often exhibit stereotypes in implicit word association tasks, raising concerns about their fair usage. We investigate the mechanisms behind this discrepancy and find that alignment surprisingly amplifies implicit bias in model outputs. Specifically, we show that aligned LMs, unlike their unaligned counterparts, overlook racial concepts in early internal representations when the context is ambiguous. Not representing race likely fails to activate safety guardrails, leading to unintended biases. Inspired by this insight, we propose a new bias mitigation strategy that works by incentivizing the representation of racial concepts in the early model layers. In contrast to conventional mitigation methods of machine unlearning, our interventions find that steering the model to be more aware of racial concepts effectively mitigates implicit bias. Similar to race blindness in humans, ignoring racial nuances can inadvertently perpetuate subtle biases in LMs.
- Abstract(参考訳): 値整合言語モデル(LM)は、明示的なバイアス評価ではバイアスがないように見えるが、暗黙的な単語関連タスクではステレオタイプをしばしば示し、それらの公正な使用に対する懸念を提起する。
この不一致の背後にあるメカニズムを考察し、アライメントが驚くほどモデル出力の暗黙バイアスを増幅することを発見した。
具体的には、アライメントされたLMが、非アライメントされたLMと異なり、文脈が曖昧である場合、初期内部表現における人種的概念を見落としていることを示す。
レースを代表していない場合、安全ガードレールの起動に失敗し、意図しない偏見につながる可能性がある。
この知見にインスパイアされた我々は、初期のモデル層における人種概念の表現を動機付けることによって機能する新しいバイアス緩和戦略を提案する。
マシン・アンラーニングの従来の緩和手法とは対照的に、我々の介入は、モデルのステアリングが人種的概念をより意識していることが、暗黙の偏見を効果的に緩和することを発見した。
人間における人種の盲目と同様、人種的ニュアンスを無視しても、LMの微妙な偏見は必然的に持続する。
関連論文リスト
- Beneath the Surface: How Large Language Models Reflect Hidden Bias [7.026605828163043]
HBB(Hidden Bias Benchmark)は、現実のシナリオにおいて、バイアスの概念が自然主義的、微妙にフレーム化されたコンテキストの中に隠されていることの隠れバイアスを評価するために設計された、新しいデータセットである。
我々は6つの最先端のLarge Language Modelを分析し、モデルが過度なバイアスに反応してバイアスを減らす一方で、ニュアンスドセッティングにおけるバイアスの強化を続けていることを明らかにした。
論文 参考訳(メタデータ) (2025-02-27T04:25:54Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Looking at the Overlooked: An Analysis on the Word-Overlap Bias in
Natural Language Inference [20.112129592923246]
我々は、NLIモデルにおける重複バイアスの見過ごされた側面、すなわちリバースワードオーバーラップバイアスに焦点を当てる。
現在のNLIモデルは、重複の少ないインスタンスにおいて、非エンターメントラベルに対して非常に偏りがある。
重なり合うバイアスの出現とその緩和におけるマイノリティ事例の役割について検討する。
論文 参考訳(メタデータ) (2022-11-07T21:02:23Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models
with Adversarial Learning [55.96577490779591]
視覚言語モデルは社会的バイアスやステレオタイプを符号化することができる。
これらのマルチモーダル害の測定と緩和には課題がある。
バイアス尺度を調査し,画像テキスト表現にランキング指標を適用した。
論文 参考訳(メタデータ) (2022-03-22T17:59:04Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - OSCaR: Orthogonal Subspace Correction and Rectification of Biases in
Word Embeddings [47.721931801603105]
我々は,概念全体を取り除く代わりに,概念間のバイアス付き関連を解消することに焦点を当てたバイアス緩和手法であるOSCaRを提案する。
性別バイアスに関する実験により、OSCaRは、セマンティック情報が埋め込みに保持され、バイアスも効果的に緩和されるようなバランスのとれたアプローチであることが示されている。
論文 参考訳(メタデータ) (2020-06-30T18:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。