論文の概要: Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.01528v1
- Date: Mon, 02 Feb 2026 01:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.837814
- Title: Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning
- Title(参考訳): バイアス非予測化:強化学習によるロバストLLM審査員の訓練
- Authors: Qian Wang, Xuandong Zhao, Zirui Zhang, Zhanzhi Lou, Nuo Chen, Dawn Song, Bingsheng He,
- Abstract要約: 大規模言語モデル(LLM)は、ますます自動化された審査員として機能するが、認知バイアスの影響を受けやすいままである。
本稿では,重要原則に基づく強化学習フレームワークである疫学独立訓練(EIT)を提案する。
EITはバランスの取れた競合戦略を通じてこれを運用します。
- 参考スコア(独自算出の注目度): 91.8584139564909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly serve as automated judges, yet they remain susceptible to cognitive biases -- often altering their reasoning when faced with spurious prompt-level cues such as consensus claims or authority appeals. Existing mitigations via prompting or supervised fine-tuning fail to generalize, as they modify surface behavior without changing the optimization objective that makes bias cues predictive. To address this gap, we propose Epistemic Independence Training (EIT), a reinforcement learning framework grounded in a key principle: to learn independence, bias cues must be made non-predictive of reward. EIT operationalizes this through a balanced conflict strategy where bias signals are equally likely to support correct and incorrect answers, combined with a reward design that penalizes bias-following without rewarding bias agreement. Experiments on Qwen3-4B demonstrate that EIT improves both accuracy and robustness under adversarial biases, while preserving performance when bias aligns with truth. Notably, models trained only on bandwagon bias generalize to unseen bias types such as authority and distraction, indicating that EIT induces transferable epistemic independence rather than bias-specific heuristics. Code and data are available at https://anonymous.4open.science/r/bias-mitigation-with-rl-BC47.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます自動化された審査員として機能するが、認知バイアスの影響を受けやすいままであり、しばしば、合意の主張や権威の訴えのような急激な急進的な手段に直面した場合に、その推論を変える。
既存の緩和策は、偏見を予測的にする最適化目標を変更することなく表面の挙動を変更するため、誘導や教師付き微調整による一般化に失敗する。
このギャップに対処するために、我々は、独立を学ぶためには、偏見の手がかりを報酬の予測不能にしなければならないという重要な原則に基づく強化学習フレームワークである、疫学独立訓練(EIT)を提案する。
EITはバランスの取れた競合戦略を通じてこれを運用し、バイアス信号は、バイアス合意に報いることなくバイアス追従を罰する報酬設計と相まって、正解と誤答を支持する可能性が高い。
Qwen3-4Bの実験では、EITは逆バイアス下での精度と堅牢性の両方を改善し、バイアスが真実と一致した場合のパフォーマンスを保っている。
特に、バンドワゴンバイアスのみに基づいて訓練されたモデルは、権威や気晴らしのような目に見えないバイアスタイプに一般化され、EITはバイアス固有のヒューリスティックではなく、伝達可能なてんかんの独立を誘導することを示している。
コードとデータはhttps://anonymous.4open.science/r/bias-mitigation-with-rl-BC47で公開されている。
関連論文リスト
- ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景と前景のバイアスプロトコル上で評価し,新しい最先端のバイアスプロトコルを設定し,HMDB51では12%以上のデバイアス性能を向上した。
論文 参考訳(メタデータ) (2025-01-31T20:47:06Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought [33.32335629744919]
CoT(Chain-of- Thought prompting)は、言語モデル推論の説明可能性を改善する可能性がある。
また、CoTはモデルの動きに影響を与える要因を体系的に誤って表すこともできる。
まず、GPT-3.5-TurboとLlama-8bモデルに影響を与える9つの異なるバイアスのデータセットを作成します。
論文 参考訳(メタデータ) (2024-03-08T18:41:42Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Unsupervised Learning of Unbiased Visual Representations [12.690228982893]
ディープニューラルネットワークは、データセットバイアスの存在下で堅牢な表現を学ぶのに苦労することが多い。
この問題に対処するための既存のアプローチは、一般的にバイアス属性の明示的な監督、あるいはバイアスに関する事前の知識への依存を含む。
我々は3つの重要なステップを持つ完全に教師なしのデバイアス・フレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-26T10:51:50Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。