論文の概要: Mitigating Cognitive Bias in RLHF by Altering Rationality
- arxiv url: http://arxiv.org/abs/2605.06895v1
- Date: Thu, 07 May 2026 19:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.589886
- Title: Mitigating Cognitive Bias in RLHF by Altering Rationality
- Title(参考訳): RLHFにおける認知バイアスの緩和
- Authors: Tiffany Horter, Andrew Markham, Niki Trigoni, Serena Booth,
- Abstract要約: 報奨学習における合理性パラメータのベータを動的に調整する手法を提案する。
このアプローチは、バイアスまたは信頼できない判断を反映する可能性のある、効果的な下級比較を効果的に行う。
実験的に、強い偏りのあるデータセットを微調整しても、このアプローチはより合理的な下流モデルを学ぶことを示す。
- 参考スコア(独自算出の注目度): 40.54637728189237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we make models robust to even imperfect human feedback? In reinforcement learning from human feedback (RLHF), human preferences over model outputs are used to train a reward model that assigns scalar values to responses. Because these rewards are inferred from pairwise comparisons, this learning depends on an assumed relationship between latent reward differences and observed preferences, typically modeled using a Boltzmann formulation in which a rationality parameter beta informs how consistently preferences reflect reward differences. In practice, beta is typically treated as a fixed constant that reflects assumed uniform annotator reliability. However, human feedback is not this simplistic in practice: real human judgments are shaped by cognitive biases, leading to systematic deviations from reward-consistent behavior that arise contextually. To address this, we treat rationality as context- and annotation-dependent. We design an approach to dynamically adjust the rationality parameter beta during reward learning using an LLM-as-judge to assess the likely presence of cognitive biases. This approach effectively downweights comparisons that are likely to reflect biased or unreliable judgments. Empirically, we show that this approach learns a more rational downstream model, even when finetuning on datasets with strongly biased preferences.
- Abstract(参考訳): モデルが人間のフィードバックを不完全なものにするために、どうやって堅牢にできるのか?
人からのフィードバック(RLHF)からの強化学習では、モデル出力よりも人間の好みを用いて、スカラー値を応答に割り当てる報酬モデルを訓練する。
これらの報酬はペア比較から推定されるため、この学習は潜在報酬差と観察された嗜好の間の仮定された関係に依存し、通常は、有理性パラメータβが報酬差を常に反映しているかを知らせるボルツマンの定式化を用いてモデル化される。
実際には、ベータは通常、仮定された均一なアノテータの信頼性を反映する固定定数として扱われる。
実際の人間の判断は認知バイアスによって形成され、文脈的に発生する報酬と一貫性のある行動から体系的に逸脱する。
これを解決するために、合理性は文脈依存およびアノテーション依存として扱う。
LLM-as-judge を用いて報酬学習中に有理性パラメータβを動的に調整し、認知バイアスの有無を評価するアプローチを設計する。
このアプローチは、偏見または信頼できない判断を反映する可能性のある、効果的な下級比較である。
実験的に、強い偏りのあるデータセットを微調整しても、このアプローチはより合理的な下流モデルを学ぶことを示す。
関連論文リスト
- CausalRM: Causal-Theoretic Reward Modeling for RLHF from Observational User Feedbacks [65.44788139573144]
我々は、スケーラブルで費用対効果の高い代替手段として、観察的報酬モデル(観察的ユーザフィードバックを伴う報酬モデル)を導入します。
CaulRMは、観察フィードバックから偏見のない報酬モデルを学ぶことを目指している。
実験では、CausalRMがノイズや偏りのある観測フィードバックから正確な報酬信号を効果的に学習することを検証する。
論文 参考訳(メタデータ) (2026-03-19T10:37:34Z) - How RLHF Amplifies Sycophancy [23.213056717401418]
大規模言語モデルは、好みに基づく後訓練後、しばしばサイコファンティックな振る舞いを増大させる。
我々は、アライメントに使用する人間の嗜好データにおいて、学習した報酬に対する最適化とバイアスを因果的に関連付ける明示的な増幅機構を同定する。
本稿では,増幅機構自体を中和する訓練時間介入を提案する。
論文 参考訳(メタデータ) (2026-02-01T03:46:14Z) - Debiasing Reward Models by Representation Learning with Guarantees [20.170532007501883]
本稿では,報酬モデルにおける素早い相関問題を緩和する原理的枠組みを提案する。
本研究では, 余剰潜伏変数のサロゲートが利用できるかどうかに関わらず, 理論上はデータから非純粋潜伏変数を識別可能であることを示す。
合成および実世界のデータセットに関する実験により、我々の手法は効果的な相関問題を緩和し、より堅牢な報酬モデルが得られることを示した。
論文 参考訳(メタデータ) (2025-10-27T18:37:57Z) - Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs [51.00909549291524]
大型言語モデル(LLM)は認知バイアスを示す。
これらのバイアスはモデルによって異なり、命令チューニングによって増幅することができる。
これらのバイアスの違いが事前学習、微調整、あるいはランダムノイズに起因するかどうかは不明だ。
論文 参考訳(メタデータ) (2025-07-09T18:01:14Z) - Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文 参考訳(メタデータ) (2024-11-19T20:17:04Z) - The Effect of Modeling Human Rationality Level on Learning Rewards from
Multiple Feedback Types [38.37216644899506]
フィードバックタイプ毎の実データに有理性係数を基礎付けることは、報奨学習に有意な影響を与えると論じる。
一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じることがわかりました。
論文 参考訳(メタデータ) (2022-08-23T02:19:10Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。