論文の概要: Bradley-Terry and Multi-Objective Reward Modeling Are Complementary
- arxiv url: http://arxiv.org/abs/2507.07375v1
- Date: Thu, 10 Jul 2025 01:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.249788
- Title: Bradley-Terry and Multi-Objective Reward Modeling Are Complementary
- Title(参考訳): Bradley-Terry と Multi-Objective Reward Modeling は相補的
- Authors: Zhiwei Zhang, Hui Liu, Xiaomin Li, Zhenwei Dai, Jingying Zeng, Fali Wang, Minhua Lin, Ramraj Chandradevan, Zhen Li, Chen Luo, Xianfeng Tang, Qi He, Suhang Wang,
- Abstract要約: 我々は、最先端の手法がより困難なアウト・オブ・ディストリビューション(OOD)設定に苦しむことを示す。
我々はBradley-Terry単目的と多目的回帰に基づく報酬関数を共同で訓練する統一報酬モデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.33256669646017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models trained on human preference data have demonstrated strong effectiveness in aligning Large Language Models (LLMs) with human intent under the framework of Reinforcement Learning from Human Feedback (RLHF). However, RLHF remains vulnerable to reward hacking, where the policy exploits imperfections in the reward function rather than genuinely learning the intended behavior. Although significant efforts have been made to mitigate reward hacking, they predominantly focus on and evaluate in-distribution scenarios, where the training and testing data for the reward model share the same distribution. In this paper, we empirically show that state-of-the-art methods struggle in more challenging out-of-distribution (OOD) settings. We further demonstrate that incorporating fine-grained multi-attribute scores helps address this challenge. However, the limited availability of high-quality data often leads to weak performance of multi-objective reward functions, which can negatively impact overall performance and become the bottleneck. To address this issue, we propose a unified reward modeling framework that jointly trains Bradley--Terry (BT) single-objective and multi-objective regression-based reward functions using a shared embedding space. We theoretically establish a connection between the BT loss and the regression objective and highlight their complementary benefits. Specifically, the regression task enhances the single-objective reward function's ability to mitigate reward hacking in challenging OOD settings, while BT-based training improves the scoring capability of the multi-objective reward function, enabling a 7B model to outperform a 70B baseline. Extensive experimental results demonstrate that our framework significantly improves both the robustness and the scoring performance of reward models.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)の枠組みの下で、人間の嗜好データに基づいてトレーニングされたリワードモデルは、大規模言語モデル(LLM)と人間の意図との整合性を強く示している。
しかし、RLHFは、意図した振る舞いを真に学習するのではなく、報酬関数の不完全性を悪用するハッキングに対して脆弱なままである。
報酬のハッキングを軽減するために重要な努力がなされているが、報奨モデルのためのトレーニングデータとテストデータが同じ分布を共有する、主に流通シナリオに注目し、評価している。
本稿では,最先端の手法が,より困難なアウト・オブ・ディストリビューション(OOD)設定に苦しむことを実証的に示す。
さらに、細粒度多属性スコアを取り入れることで、この課題に対処できることを実証する。
しかし、高品質なデータの可用性が制限されることで、多目的報酬関数の性能が低下し、全体的なパフォーマンスに悪影響を及ぼし、ボトルネックとなることがしばしばある。
この問題に対処するために,共有埋め込み空間を用いてBradley-Terry(BT)単目的と多目的回帰に基づく報酬関数を共同で訓練する統一報酬モデリングフレームワークを提案する。
BT損失と回帰目標との関係を理論的に確立し,それらの相補的利益を強調した。
具体的には、BTベースのトレーニングは、多目的報酬関数のスコアリング能力を改善し、7Bモデルが70Bベースラインを上回っている。
大規模な実験結果から,我々のフレームワークは報酬モデルのロバスト性およびスコアリング性能の両方を著しく改善することが示された。
関連論文リスト
- Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - Probabilistic Uncertain Reward Model [27.40414952747553]
本稿では、優先データから生じる報酬分布を学習するための確率的不確実リワードモデル(PURM)を提案する。
PURMは従来の手法よりも精度が高く,不確実性も高いことを示す。
論文 参考訳(メタデータ) (2025-03-28T14:39:52Z) - Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models [6.472081755630166]
報酬の線形集約がいかにいくつかの脆弱性を示すかを示す。
本稿では,効用関数の経済理論にインスパイアされた報酬関数の変換を提案する。
Inada-transformationsでトレーニングしたモデルは、有害度を低くしながら、より有用であることを示す。
論文 参考訳(メタデータ) (2025-01-08T19:03:17Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。