論文の概要: RewardAnything: Generalizable Principle-Following Reward Models
- arxiv url: http://arxiv.org/abs/2506.03637v1
- Date: Wed, 04 Jun 2025 07:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.195605
- Title: RewardAnything: Generalizable Principle-Following Reward Models
- Title(参考訳): RewardAnything: 一般化可能な原則に従うRewardモデル
- Authors: Zhuohao Yu, Jiali Zeng, Weizheng Gu, Yidong Wang, Jindong Wang, Fandong Meng, Jie Zhou, Yue Zhang, Shikun Zhang, Wei Ye,
- Abstract要約: リワードモデルは典型的には、固定された嗜好データセットに基づいて訓練される。
これにより、様々な現実世界のニーズへの適応が、あるタスクにおける簡潔さから別のタスクにおける詳細な説明への適応を妨げる。
一般化可能な原理追従型報酬モデルを導入する。
RewardAnythingは、自然言語の原則を明示的に追従するようにデザインされ、訓練された新しいRMである。
- 参考スコア(独自算出の注目度): 82.16312590749052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward Models, essential for guiding Large Language Model optimization, are typically trained on fixed preference datasets, resulting in rigid alignment to single, implicit preference distributions. This prevents adaptation to diverse real-world needs-from conciseness in one task to detailed explanations in another. The standard practice of collecting task-specific preference data and retraining reward models is resource-intensive, often producing biased rewards, and limits practical application. We introduce generalizable, principle-following reward models. We propose that RMs should understand and adhere to dynamically provided natural language specifications of reward principles, similar to instruction-following in LLMs. To measure this capability, we develop RABench, a comprehensive benchmark for RMs focusing on generalization across diverse principles. Evaluations on RABench reveal poor generalization of current RMs. As a solution, we present RewardAnything, a novel RM designed and trained to explicitly follow natural language principles. We achieve SotA performance with RewardAnything in traditional RM benchmark simply by specifying a well-defined principle, and results on RABench show we excel in adapting to novel principles without retraining. Furthermore, RewardAnything integrates seamlessly with existing RLHF methods and we show by a case study on how to automatically and efficiently align LLMs with only natural language principles.
- Abstract(参考訳): 大規模言語モデルの最適化に不可欠なリワードモデルは、通常、固定された優先データセットに基づいて訓練され、単一の暗黙の優先分布に厳格なアライメントをもたらす。
これにより、様々な現実世界のニーズへの適応が、あるタスクにおける簡潔さから別のタスクにおける詳細な説明への適応を妨げる。
タスク固有の嗜好データを収集し、報酬モデルを再訓練する標準的なプラクティスは、リソース集約であり、しばしばバイアスのある報酬を生み出し、実用的な応用を制限する。
一般化可能な原理追従型報酬モデルを導入する。
LLMの命令追従と同様、RMは報酬原理の動的に提供された自然言語仕様を理解し、遵守すべきである。
この能力を測定するため,様々な原理の一般化に焦点を当てたRMの総合ベンチマークであるRABenchを開発した。
RABenchの評価は、現在のRMの低い一般化を示す。
提案するRewardAnythingは,自然言語の原則を明示的に追従するように設計・訓練された新しいRMである。
RewardAnything による SotA のパフォーマンスは,明確に定義された原則を単純に指定することで達成し,RABench の結果から,リトレーニングを伴わずに新しい原則に適応できることが判明した。
さらに、RewardAnythingは既存のRLHFメソッドとシームレスに統合し、LLMを自然言語の原理のみに自動的に効率的に整合させる方法のケーススタディで示す。
関連論文リスト
- Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards [1.1981384995161284]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Latent Principle Discovery for Language Model Self-Improvement [14.137106102563514]
本稿では, 自己補正設定で明示的にモデル化することで, 人間の嗜好応答を推論する潜在属性を抽出する手法を提案する。
提案手法は,LM自体から新たな原理を抽出し,発見した要素をクラスタリングにより解釈可能な集合に圧縮する。
複数の反復でアルゴリズムをブートストラップすることで、より小さな言語モデルを自己改善し、AlpacaEvalの勝率+8-10%、MT-Benchの平均+0.3、IFEvalの勝率+19-23%を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:20:18Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Inference-Time Scaling for Generalist Reward Modeling [25.62000059973935]
強化学習(RL)は大規模言語モデル(LLM)のポストトレーニングにおいて広く採用されている。
RLの主な課題は、検証可能な質問や人工ルールを超えて、様々な領域のLLMに対して正確な報酬信号を得ることである。
本研究では,一般問合せに対する推論計算により,報酬モデルを改善する方法について検討する。
論文 参考訳(メタデータ) (2025-04-03T11:19:49Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。