論文の概要: Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
- arxiv url: http://arxiv.org/abs/2502.19328v1
- Date: Wed, 26 Feb 2025 17:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:16.869602
- Title: Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems
- Title(参考訳): エージェント・リワード・モデリング:信頼性リワードシステムのための人間の選好と検証可能な正確性信号の統合
- Authors: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li,
- Abstract要約: リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
- 参考スコア(独自算出の注目度): 54.4392552373835
- License:
- Abstract: Reward models (RMs) are crucial for the training and inference-time scaling up of large language models (LLMs). However, existing reward models primarily focus on human preferences, neglecting verifiable correctness signals which have shown strong potential in training LLMs. In this paper, we propose agentic reward modeling, a reward system that combines reward models with verifiable correctness signals from different aspects to provide reliable rewards. We empirically implement a reward agent, named RewardAgent, that combines human preference rewards with two verifiable signals: factuality and instruction following, to provide more reliable rewards. We conduct comprehensive experiments on existing reward model benchmarks and inference time best-of-n searches on real-world downstream tasks. RewardAgent significantly outperforms vanilla reward models, demonstrating its effectiveness. We further construct training preference pairs using RewardAgent and train an LLM with the DPO objective, achieving superior performance on various NLP benchmarks compared to conventional reward models. Our codes are publicly released to facilitate further research (https://github.com/THU-KEG/Agentic-Reward-Modeling).
- Abstract(参考訳): リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である。
しかし、既存の報酬モデルは主に人間の嗜好に焦点を当てており、LLMのトレーニングにおいて強い可能性を示す検証正当性信号を無視している。
本稿では,報酬モデルと異なる側面から検証された正当性信号を組み合わせて信頼性の高い報酬を与える報酬システムであるエージェント報酬モデリングを提案する。
RewardAgentという名前の報酬エージェントを実証的に実装し、人間の嗜好報酬と2つの検証可能な信号(事実性と指示)を組み合わせることで、より信頼性の高い報酬を提供する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行った。
RewardAgentはバニラ報酬モデルを大きく上回っており、その効果を示している。
さらに、RewardAgentを用いてトレーニング選好ペアを構築し、DPO目標でLLMを訓練し、従来の報奨モデルと比較して、様々なNLPベンチマークにおいて優れた性能を達成する。
我々のコードは、さらなる研究を促進するために公開されています(https://github.com/THU-KEG/Agentic-Reward-Modeling)。
関連論文リスト
- How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。
本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。
本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文 参考訳(メタデータ) (2024-09-26T04:28:35Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Bayesian Reward Models for LLM Alignment [26.612181012468167]
我々は、トレーニングデータ分布からより高い不確実性を示すベイズ報酬モデルを訓練する。
得られた不確実性推定は,BoNサンプリングにおける報酬過小評価を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-02-20T18:20:59Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。