論文の概要: Mechanics of Bias and Reasoning: Interpreting the Impact of Chain-of-Thought Prompting on Gender Bias in LLMs
- arxiv url: http://arxiv.org/abs/2605.20410v1
- Date: Tue, 19 May 2026 19:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.337553
- Title: Mechanics of Bias and Reasoning: Interpreting the Impact of Chain-of-Thought Prompting on Gender Bias in LLMs
- Title(参考訳): バイアスと推論の力学--LLMにおけるチェーン・オブ・サート・プロンプトが性バイアスに及ぼす影響を解釈する
- Authors: Edie Pearman, Sophia Osborne, Mira Kandlikar-Bloch, Mina Arzaghi, Florian Carichon, Golnoosh Farnadi,
- Abstract要約: CoT(Chain-of-Thought)プロンプトはバイアス緩和手法として提案されている。
メカニスティック分析により、CoTは特定の注目ヘッドクラスタにおけるバイアスの振る舞いのバランスを保っているが、性別バイアスは隠された表現に埋もれていることが明らかになった。
- 参考スコア(独自算出の注目度): 9.546109127678625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in socially sensitive settings despite substantial documentation that they encode gender biases. Chain-of-Thought (CoT) prompting has been proposed as a bias-mitigation approach. However, existing evaluations primarily focus on changes in LLM benchmark performance, providing limited insight into whether apparent bias reductions reflect meaningful changes in a model's internal mechanisms. In this work, we investigate how CoT prompting affects gender bias in LLMs, combining benchmark-based evaluation with mechanistic interpretability techniques and reasoning chain failure analysis. Our results confirm a stereotypical bias present in LLM outputs across benchmarks, showing that CoT prompting does not consistently reduce the bias gap. Mechanistic analyses reveal that although CoT balances biased behavior in certain attention head clusters, gender bias remains embedded in hidden representations, indicating only superficial mitigation. Inspection of reasoning chains further suggests that these improvements stem from memorization and familiarity with the dataset rather than genuine understanding of bias.
- Abstract(参考訳): 大きな言語モデル(LLM)は、性別バイアスをエンコードするドキュメントにもかかわらず、社会的に敏感な設定でますます展開されている。
CoT(Chain-of-Thought)プロンプトはバイアス緩和手法として提案されている。
しかし、既存の評価は主にLLMベンチマークのパフォーマンスの変化に焦点を当てており、明らかなバイアス低減がモデルの内部メカニズムにおける意味のある変化を反映するかどうかについての限られた洞察を与えている。
本研究では,COTプロンプトがLDMの性別バイアスに与える影響について検討し,ベンチマークに基づく評価と機械的解釈可能性手法と推論連鎖故障解析を組み合わせた。
これらの結果から,ベンチマーク間でのLCM出力のステレオタイプバイアスが確認され,CoTプロンプトが常にバイアスギャップを減少しないことが示された。
メカニスティック分析により、CoTは特定の注目ヘッドクラスタにおけるバイアスの挙動のバランスをとるが、性別バイアスは隠された表現に埋もれており、表面的な緩和のみを示す。
推論連鎖の検査はさらに、これらの改善はバイアスの真の理解ではなく、データセットへの記憶と親しみによるものであることを示唆している。
関連論文リスト
- Alignment Reduces Expressed but Not Encoded Gender Bias: A Unified Framework and Study [3.679036235271287]
本研究では,大規模言語モデルにおける内在性および外在性バイアスを共同で分析するための統一的な枠組みを提案する。
統一されたプロトコルで測定すると、潜在性情報と表現バイアスが一貫した関連性を見出す。
以上の結果から,後者は表現バイアスを実際に減少させるが,測定可能な性別関連関係は依然として内部表現に存在していることが示唆された。
論文 参考訳(メタデータ) (2026-03-25T09:35:18Z) - Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation [116.86965910589775]
対象物の10%だけをマスクしたり、背景が弱くぼやけたりといった、最小限の摂動でさえ、バイアススコアを劇的に変える可能性がある。
これは、現在のバイアス評価がモデル応答を、性別バイアスよりも刺激的な特徴に反映していることを示唆している。
論文 参考訳(メタデータ) (2025-09-09T11:14:11Z) - Measuring Bias or Measuring the Task: Understanding the Brittle Nature of LLM Gender Biases [2.9803250365852443]
本稿では, 課題評価の目的が, LLMの性別バイアスに与える影響について検討する。
ジェンダーバイアス(性偏見)の評価とより明確に一致していることが、ジェンダーの出力分布を区別する要因であることがわかった。
論文 参考訳(メタデータ) (2025-09-04T16:32:18Z) - Does Reasoning Introduce Bias? A Study of Social Bias Evaluation and Mitigation in LLM Reasoning [21.921684911834447]
大規模言語モデル(LLM)における社会的偏見の最初の体系的評価について述べる。
我々は、DeepSeek-R1とChatGPTの命令調整およびCoT拡張版を含む、幅広いモデルの予測精度と推論バイアスを解析する。
本稿では, モデル予測が漸進的推論ステップ間でどのように変化するかを追跡することにより, バイアスを検出する軽量な緩和法であるバイアスプロキシ(ADBP)を提案する。
論文 参考訳(メタデータ) (2025-02-21T10:16:07Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。