論文の概要: C2PO: Diagnosing and Disentangling Bias Shortcuts in LLMs
- arxiv url: http://arxiv.org/abs/2512.23430v1
- Date: Mon, 29 Dec 2025 12:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.499931
- Title: C2PO: Diagnosing and Disentangling Bias Shortcuts in LLMs
- Title(参考訳): C2PO: LLMにおけるバイアスショートカットの診断と分離
- Authors: Xuan Feng, Bo An, Tianlong Gu, Liang Chang, Fengrui Hao, Peipeng Yu, Shuai Zhao,
- Abstract要約: Causal-Contrastive Preference Optimization (C2PO) は、これらの相関を発見して抑制することによって、これらの特定の障害に対処するように設計されている。
C2POは、頑健な一般的な推論能力を保ちながら、ステレオタイプおよび構造バイアスを効果的に緩和する。
- 参考スコア(独自算出の注目度): 21.78910192035563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bias in Large Language Models (LLMs) poses significant risks to trustworthiness, manifesting primarily as stereotypical biases (e.g., gender or racial stereotypes) and structural biases (e.g., lexical overlap or position preferences). However, prior paradigms typically address these in isolation, often mitigating one at the expense of exacerbating the other. To address this, we conduct a systematic exploration of these reasoning failures and identify a primary inducement: the latent spurious feature correlations within the input that drive these erroneous reasoning shortcuts. Driven by these findings, we introduce Causal-Contrastive Preference Optimization (C2PO), a unified alignment framework designed to tackle these specific failures by simultaneously discovering and suppressing these correlations directly within the optimization process. Specifically, C2PO leverages causal counterfactual signals to isolate bias-inducing features from valid reasoning paths, and employs a fairness-sensitive preference update mechanism to dynamically evaluate logit-level contributions and suppress shortcut features. Extensive experiments across multiple benchmarks covering stereotypical bias (BBQ, Unqover), structural bias (MNLI, HANS, Chatbot, MT-Bench), out-of-domain fairness (StereoSet, WinoBias), and general utility (MMLU, GSM8K) demonstrate that C2PO effectively mitigates stereotypical and structural biases while preserving robust general reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるバイアスは、主にステレオタイプ的バイアス(例えば、性別または人種的ステレオタイプ)と構造的バイアス(例えば、語彙的重複または位置優先)として、信頼性に重大なリスクをもたらす。
しかしながら、以前のパラダイムは、通常はこれらを分離して処理し、他方を悪化させるコストでそれらを緩和する。
これを解決するために、これらの推論失敗を体系的に探索し、主要な推論を識別する: 入力内の潜在的な素因的特徴相関が、これらの誤った推論ショートカットを駆動する。
これらの結果に基づいて、最適化プロセス内で直接これらの相関を発見・抑制することにより、これらの特定の障害に対処する統合アライメントフレームワークであるCausal-Contrastive Preference Optimization (C2PO)を導入する。
具体的には、C2POは因果的反事実信号を利用してバイアス誘発特徴を有効な推論経路から分離し、公平性に敏感な優先順位更新機構を用いてロジトレベルのコントリビューションを動的に評価し、ショートカット機能を抑制する。
定型バイアス(BBQ, Unqover)、構造バイアス(MNLI, HANS, Chatbot, MT-Bench)、領域外公平性(StereoSet, WinoBias)、汎用性(MMLU, GSM8K)を含む複数のベンチマークにおいて、C2POは強固な一般的な推論能力を保ちながら、事実上ステレオ型バイアスと構造バイアスを緩和することを示した。
関連論文リスト
- Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning [91.8584139564909]
大規模言語モデル(LLM)は、ますます自動化された審査員として機能するが、認知バイアスの影響を受けやすいままである。
本稿では,重要原則に基づく強化学習フレームワークである疫学独立訓練(EIT)を提案する。
EITはバランスの取れた競合戦略を通じてこれを運用します。
論文 参考訳(メタデータ) (2026-02-02T01:43:48Z) - Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models [66.36240676392502]
CoT(Chain-of- Thought)推論は、LLM(Large Language Models)が複雑な問題を解決するための標準パラダイムとなっている。
近年の研究では、ホップ一般化シナリオの推論性能が急落している。
推論過程におけるEPヘッドを動的に識別・非活性化する軽量な介入法である推論の試験時間補正を提案する。
論文 参考訳(メタデータ) (2026-01-29T03:24:32Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - ASCoT: An Adaptive Self-Correction Chain-of-Thought Method for Late-Stage Fragility in LLMs [21.409155842171497]
CoT(Chain-of-Thought)の促進により,LLM(Large Language Models)の推論機能が大幅に向上した。
CoT鎖の後半で導入されたエラーは、当初と同一のエラーよりも、最終回答が著しく破損する可能性が高い。
本稿では、この脆弱性に対処するために、適応自己補正連鎖法(ASCoT)を導入する。
論文 参考訳(メタデータ) (2025-08-07T11:26:40Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Fine-Grained Bias Exploration and Mitigation for Group-Robust Classification [11.525201208566925]
オーバーフィッティング(BEO)によるバイアス探索(Bias Exploration)は、潜伏群の混合としてモデル化することで、各分布をより詳細に捉えている。
FG-CCDBと呼ばれるCCDBのきめ細かい変形を導入し、各グループ内でより正確な分布マッチングとバランスを行う。
本手法は, 2進分類タスクにおけるバイアス管理手法と同等に動作し, 偏りの高いマルチクラスシナリオにおいて, それらの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-05-11T04:01:34Z) - Does Reasoning Introduce Bias? A Study of Social Bias Evaluation and Mitigation in LLM Reasoning [21.921684911834447]
大規模言語モデル(LLM)における社会的偏見の最初の体系的評価について述べる。
我々は、DeepSeek-R1とChatGPTの命令調整およびCoT拡張版を含む、幅広いモデルの予測精度と推論バイアスを解析する。
本稿では, モデル予測が漸進的推論ステップ間でどのように変化するかを追跡することにより, バイアスを検出する軽量な緩和法であるバイアスプロキシ(ADBP)を提案する。
論文 参考訳(メタデータ) (2025-02-21T10:16:07Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - A Causal View of Entity Bias in (Large) Language Models [42.64248130399508]
ホワイトボックスとブラックボックスの設定の両方において,エンティティバイアスを軽減するための因果介入手法を提案する。
ホワイトボックス設定では,PLMのOOD性能を5.7ポイント,機械読解(MRC)を9.1ポイント向上させる。
ブラックボックス設定下では, 文脈内介入は, GPT-3.5の実体に基づく知識紛争を効果的に軽減し, MRCの正確な一致精度を最大20.5ポイント改善し, REの記憶率を最大17.6ポイント削減する。
論文 参考訳(メタデータ) (2023-05-24T03:59:18Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。
条件付き推定は必然的に既約誤差を生じさせることを示す。
経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2022-06-21T17:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。