論文の概要: Eliminating Inductive Bias in Reward Models with Information-Theoretic Guidance
- arxiv url: http://arxiv.org/abs/2512.23461v1
- Date: Mon, 29 Dec 2025 13:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.515404
- Title: Eliminating Inductive Bias in Reward Models with Information-Theoretic Guidance
- Title(参考訳): 情報理論誘導による逆流モデルにおける誘導バイアスの除去
- Authors: Zhuo Li, Pengyu Cheng, Zhechao Yu, Feifei Tong, Anningzhe Gao, Tsung-Hui Chang, Xiang Wan, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: リワードモデル(RM)は、人間のフィードバック(RLHF)からの強化学習において、大きな言語モデルと人間の価値の整合に不可欠である。
我々はtextbfRM (DIR) のための textbfInformation 最適化による textbfDebiasing と呼ばれる新しい情報理論的デバイアス手法を提案する。
情報理論の理論的正当化により、DIRは非線形相関でより洗練されたバイアスを処理できる。
- 参考スコア(独自算出の注目度): 46.71732887299883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are essential in reinforcement learning from human feedback (RLHF) to align large language models (LLMs) with human values. However, RM training data is commonly recognized as low-quality, containing inductive biases that can easily lead to overfitting and reward hacking. For example, more detailed and comprehensive responses are usually human-preferred but with more words, leading response length to become one of the inevitable inductive biases. A limited number of prior RM debiasing approaches either target a single specific type of bias or model the problem with only simple linear correlations, \textit{e.g.}, Pearson coefficients. To mitigate more complex and diverse inductive biases in reward modeling, we introduce a novel information-theoretic debiasing method called \textbf{D}ebiasing via \textbf{I}nformation optimization for \textbf{R}M (DIR). Inspired by the information bottleneck (IB), we maximize the mutual information (MI) between RM scores and human preference pairs, while minimizing the MI between RM outputs and biased attributes of preference inputs. With theoretical justification from information theory, DIR can handle more sophisticated types of biases with non-linear correlations, broadly extending the real-world application scenarios for RM debiasing methods. In experiments, we verify the effectiveness of DIR with three types of inductive biases: \textit{response length}, \textit{sycophancy}, and \textit{format}. We discover that DIR not only effectively mitigates target inductive biases but also enhances RLHF performance across diverse benchmarks, yielding better generalization abilities. The code and training recipes are available at https://github.com/Qwen-Applications/DIR.
- Abstract(参考訳): リワードモデル(RM)は、人間からのフィードバック(RLHF)からの強化学習において、大きな言語モデル(LLM)と人間の価値の整合に不可欠である。
しかし、RMトレーニングデータは一般的に低品質であると認識されており、帰納的バイアスを含んでおり、簡単に過度に適合し、ハッキングに報奨を与えることができる。
例えば、より詳細で包括的な応答は、通常人間に好まれるが、より多くの単語が与えられ、応答長は避けられない誘導バイアスの1つとなる。
事前のRMデバイアスのアプローチの限られた数は、単一の特定のバイアスのタイプをターゲットにするか、単純な線形相関である『textit{e g }, Pearson coefficients』で問題をモデル化する。
報酬モデルにおけるより複雑で多様な帰納的バイアスを軽減するため、我々は \textbf{R}M (DIR) に対する \textbf{I}nformation Optimization を通じて \textbf{D}ebiasing と呼ばれる新しい情報理論的デバイアス法を導入する。
情報ボトルネック(IB)にインスパイアされ、RMスコアと人間の嗜好ペア間の相互情報(MI)を最大化するとともに、RM出力と嗜好入力のバイアス特性のMIを最小化する。
情報理論の理論的正当化により、DIRは非線形相関によるより洗練されたバイアスを扱えるようになり、RMデバイアス法における現実世界の応用シナリオを広く拡張することができる。
実験では、DIRの有効性を3種類の帰納バイアスで検証する: \textit{response length}, \textit{sycophancy}, \textit{format}。
我々は、DIRが目的の帰納バイアスを効果的に軽減するだけでなく、RLHF性能を様々なベンチマークで向上させ、より優れた一般化能力をもたらすことを発見した。
コードとトレーニングのレシピはhttps://github.com/Qwen-Applications/DIRで公開されている。
関連論文リスト
- Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文 参考訳(メタデータ) (2024-11-19T20:17:04Z) - Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。
本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。
HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-08-18T07:04:16Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Multiple Robust Learning for Recommendation [13.06593469196849]
推薦システムでは、収集されたデータに様々なバイアスが存在することが一般的な問題である。
本稿では,不偏性を実現するために,複数の候補計算モデルと確率モデルを利用するマルチロバスト (MR) 推定器を提案する。
論文 参考訳(メタデータ) (2022-07-09T13:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。