論文の概要: C2PO: Diagnosing and Disentangling Bias Shortcuts in LLMs
- arxiv url: http://arxiv.org/abs/2512.23430v1
- Date: Mon, 29 Dec 2025 12:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.499931
- Title: C2PO: Diagnosing and Disentangling Bias Shortcuts in LLMs
- Title(参考訳): C2PO: LLMにおけるバイアスショートカットの診断と分離
- Authors: Xuan Feng, Bo An, Tianlong Gu, Liang Chang, Fengrui Hao, Peipeng Yu, Shuai Zhao,
- Abstract要約: Causal-Contrastive Preference Optimization (C2PO) は、これらの相関を発見して抑制することによって、これらの特定の障害に対処するように設計されている。
C2POは、頑健な一般的な推論能力を保ちながら、ステレオタイプおよび構造バイアスを効果的に緩和する。
- 参考スコア(独自算出の注目度): 21.78910192035563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bias in Large Language Models (LLMs) poses significant risks to trustworthiness, manifesting primarily as stereotypical biases (e.g., gender or racial stereotypes) and structural biases (e.g., lexical overlap or position preferences). However, prior paradigms typically address these in isolation, often mitigating one at the expense of exacerbating the other. To address this, we conduct a systematic exploration of these reasoning failures and identify a primary inducement: the latent spurious feature correlations within the input that drive these erroneous reasoning shortcuts. Driven by these findings, we introduce Causal-Contrastive Preference Optimization (C2PO), a unified alignment framework designed to tackle these specific failures by simultaneously discovering and suppressing these correlations directly within the optimization process. Specifically, C2PO leverages causal counterfactual signals to isolate bias-inducing features from valid reasoning paths, and employs a fairness-sensitive preference update mechanism to dynamically evaluate logit-level contributions and suppress shortcut features. Extensive experiments across multiple benchmarks covering stereotypical bias (BBQ, Unqover), structural bias (MNLI, HANS, Chatbot, MT-Bench), out-of-domain fairness (StereoSet, WinoBias), and general utility (MMLU, GSM8K) demonstrate that C2PO effectively mitigates stereotypical and structural biases while preserving robust general reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるバイアスは、主にステレオタイプ的バイアス(例えば、性別または人種的ステレオタイプ)と構造的バイアス(例えば、語彙的重複または位置優先)として、信頼性に重大なリスクをもたらす。
しかしながら、以前のパラダイムは、通常はこれらを分離して処理し、他方を悪化させるコストでそれらを緩和する。
これを解決するために、これらの推論失敗を体系的に探索し、主要な推論を識別する: 入力内の潜在的な素因的特徴相関が、これらの誤った推論ショートカットを駆動する。
これらの結果に基づいて、最適化プロセス内で直接これらの相関を発見・抑制することにより、これらの特定の障害に対処する統合アライメントフレームワークであるCausal-Contrastive Preference Optimization (C2PO)を導入する。
具体的には、C2POは因果的反事実信号を利用してバイアス誘発特徴を有効な推論経路から分離し、公平性に敏感な優先順位更新機構を用いてロジトレベルのコントリビューションを動的に評価し、ショートカット機能を抑制する。
定型バイアス(BBQ, Unqover)、構造バイアス(MNLI, HANS, Chatbot, MT-Bench)、領域外公平性(StereoSet, WinoBias)、汎用性(MMLU, GSM8K)を含む複数のベンチマークにおいて、C2POは強固な一般的な推論能力を保ちながら、事実上ステレオ型バイアスと構造バイアスを緩和することを示した。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Does Reasoning Introduce Bias? A Study of Social Bias Evaluation and Mitigation in LLM Reasoning [21.921684911834447]
大規模言語モデル(LLM)における社会的偏見の最初の体系的評価について述べる。
我々は、DeepSeek-R1とChatGPTの命令調整およびCoT拡張版を含む、幅広いモデルの予測精度と推論バイアスを解析する。
本稿では, モデル予測が漸進的推論ステップ間でどのように変化するかを追跡することにより, バイアスを検出する軽量な緩和法であるバイアスプロキシ(ADBP)を提案する。
論文 参考訳(メタデータ) (2025-02-21T10:16:07Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - A Causal View of Entity Bias in (Large) Language Models [42.64248130399508]
ホワイトボックスとブラックボックスの設定の両方において,エンティティバイアスを軽減するための因果介入手法を提案する。
ホワイトボックス設定では,PLMのOOD性能を5.7ポイント,機械読解(MRC)を9.1ポイント向上させる。
ブラックボックス設定下では, 文脈内介入は, GPT-3.5の実体に基づく知識紛争を効果的に軽減し, MRCの正確な一致精度を最大20.5ポイント改善し, REの記憶率を最大17.6ポイント削減する。
論文 参考訳(メタデータ) (2023-05-24T03:59:18Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。
条件付き推定は必然的に既約誤差を生じさせることを示す。
経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2022-06-21T17:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。