論文の概要: Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments
- arxiv url: http://arxiv.org/abs/2604.02669v1
- Date: Fri, 03 Apr 2026 03:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.295785
- Title: Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments
- Title(参考訳): タスク依存型ステレオタイピングはLLMアライメントの限界を明らかにする
- Authors: Divyanshu Kumar, Ishita Gupta, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi,
- Abstract要約: シングルタスクベンチマークでは、モデルのバイアスプロファイルの1スライスしか取得できないため、これを見逃している。
本研究では,9種類のバイアスを包含する階層型分類を導入する。
我々は,textasciitilde45Kプロンプトを用いた7つの商用およびオープンウェイトLCMについて検討し,3つの系統パターンを見出した。
- 参考スコア(独自算出の注目度): 0.19703625025720697
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: How biased is a language model? The answer depends on how you ask. A model that refuses to choose between castes for a leadership role will, in a fill-in-the-blank task, reliably associate upper castes with purity and lower castes with lack of hygiene. Single-task benchmarks miss this because they capture only one slice of a model's bias profile. We introduce a hierarchical taxonomy covering 9 bias types, including under-studied axes like caste, linguistic, and geographic bias, operationalized through 7 evaluation tasks that span explicit decision-making to implicit association. Auditing 7 commercial and open-weight LLMs with \textasciitilde45K prompts, we find three systematic patterns. First, bias is task-dependent: models counter stereotypes on explicit probes but reproduce them on implicit ones, with Stereotype Score divergences up to 0.43 between task types for the same model and identity groups. Second, safety alignment is asymmetric: models refuse to assign negative traits to marginalized groups, but freely associate positive traits with privileged ones. Third, under-studied bias axes show the strongest stereotyping across all models, suggesting alignment effort tracks benchmark coverage rather than harm severity. These results demonstrate that single-benchmark audits systematically mischaracterize LLM bias and that current alignment practices mask representational harm rather than mitigating it.
- Abstract(参考訳): 言語モデルはどの程度バイアスがあるか?
答えは質問の仕方次第です。
指導的役割のためにそれぞれのキャストを選ぶことを拒むモデルは、補充作業において、上流のキャストを確実に純度と下位のキャストを衛生の欠如で関連付ける。
シングルタスクベンチマークでは、モデルのバイアスプロファイルの1スライスしか取得できないため、これを見逃している。
本研究では,9種類の偏見を包含する階層的分類法を導入し,これらの分類は,明示的な意思決定から暗黙の関連へと及ぶ7つの評価課題を通じて,キャステ,言語,地理的偏見といった未研究の軸を含む。
商業用およびオープンウェイト用LLM7種をtextasciitilde45Kプロンプトを用いて検討した結果,3種類の系統パターンが得られた。
まず、バイアスはタスク依存である:モデルは明示的なプローブ上のステレオタイプに反するが、暗黙的なプローブ上でそれらを再現する。
第2に、安全アライメントは非対称であり、モデルでは、負の特性を限界化されたグループに割り当てることを拒否するが、正の特性を特権化されたものと自由に関連付ける。
第3に、調査されていないバイアス軸は、すべてのモデルで最強のステレオタイプを示し、アライメントの取り組みは重大さを損なうのではなく、ベンチマークカバレッジを追跡することを示唆している。
これらの結果から,単一ベンチマーク監査はLLMバイアスを系統的に誤認識し,現在のアライメントプラクティスは,それを緩和するのではなく,表現的害を隠蔽することを示した。
関連論文リスト
- Addressing Stereotypes in Large Language Models: A Critical Examination and Mitigation [0.0]
自然言語処理(NLP)の発展に伴い,近年,大規模言語モデル (LLM) が普及している。
本研究は, 生成人工知能(AI)の増大に伴い, LLMのバイアスに対処する必要があることを調査し, 強調する。
我々は, StereoSet や CrowSPairs などのバイアス特異的なベンチマークを用いて,BERT や GPT 3.5,ADA など,様々な世代モデルにおける様々なバイアスの存在を評価する。
論文 参考訳(メタデータ) (2025-11-18T05:43:34Z) - Robustly Improving LLM Fairness in Realistic Settings via Interpretability [0.16843915833103415]
現実的な文脈の詳細が導入されたとき、アンチバイアスプロンプトは失敗する。
企業名や公的キャリアページからの文化記述などの現実的なコンテキストの追加,選択的な雇用制限は,人種的および性別的偏見を著しく引き起こすことが判明した。
我々の内部バイアス緩和は人種や性別に関連する方向を特定し、推論時にアフィンの概念を編集する。
論文 参考訳(メタデータ) (2025-06-12T17:34:38Z) - Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Implicit Bias in LLMs: A Survey [2.07180164747172]
本稿では,大規模言語モデルにおける暗黙バイアスに関する既存の文献を包括的にレビューする。
まず、心理学における暗黙の偏見に関連する重要な概念、理論、方法を紹介する。
検出方法は,単語関連,タスク指向テキスト生成,意思決定の3つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2025-03-04T16:49:37Z) - The Impact of Unstated Norms in Bias Analysis of Language Models [0.03495246564946556]
事実バイアス評価はバイアスの定量化に広く用いられている手法である。
テンプレートベースのプローブは非現実的なバイアス測定につながる可能性がある。
論文 参考訳(メタデータ) (2024-04-04T14:24:06Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。