論文の概要: GRAM-R$^2$: Self-Training Generative Foundation Reward Models for Reward Reasoning
- arxiv url: http://arxiv.org/abs/2509.02492v2
- Date: Wed, 10 Sep 2025 16:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 13:12:05.573436
- Title: GRAM-R$^2$: Self-Training Generative Foundation Reward Models for Reward Reasoning
- Title(参考訳): GRAM-R$^2$:Reward Reasoningのための自己学習型生成ファウンデーションリワードモデル
- Authors: Chenglong Wang, Yongyu Mu, Hang Zhou, Yifu Huo, Ziming Zhu, Jiali Zeng, Murun Yang, Bei Li, Tong Xiao, Xiaoyang Hao, Chunliang Zhang, Fandong Meng, Jingbo Zhu,
- Abstract要約: GRAM-R$2$は、好みのラベルだけでなく、報酬の合理性も生み出すために訓練された生成的報酬モデルである。
GRAM-R$2$は報酬推論の基礎モデルとして機能し、最小あるいは追加の微調整なしで幅広いタスクに適用できる。
- 参考スコア(独自算出の注目度): 90.99527142037853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant progress in reward modeling over recent years has been driven by a paradigm shift from task-specific designs towards generalist reward models. Despite this trend, developing effective reward models remains a fundamental challenge: the heavy reliance on large-scale labeled preference data. Pre-training on abundant unlabeled data offers a promising direction, but existing approaches fall short of instilling explicit reasoning into reward models. To bridge this gap, we propose a self-training approach that leverages unlabeled data to elicit reward reasoning in reward models. Based on this approach, we develop GRAM-R$^2$, a generative reward model trained to produce not only preference labels but also accompanying reward rationales. GRAM-R$^2$ can serve as a foundation model for reward reasoning and can be applied to a wide range of tasks with minimal or no additional fine-tuning. It can support downstream applications such as response ranking and task-specific reward tuning. Experiments on response ranking, task adaptation, and reinforcement learning from human feedback demonstrate that GRAM-R$^2$ consistently delivers strong performance, outperforming several strong discriminative and generative baselines.
- Abstract(参考訳): 近年の報酬モデリングの顕著な進歩は、タスク固有のデザインから一般報酬モデルへのパラダイムシフトによって引き起こされている。
この傾向にもかかわらず、効果的な報酬モデルを開発することは根本的な課題であり、大規模なラベル付き嗜好データに大きく依存する。
豊富なラベル付きデータに対する事前トレーニングは、有望な方向性を提供するが、既存のアプローチでは、報酬モデルに明確な推論を注入することができない。
このギャップを埋めるため,未ラベルデータを利用した自己学習手法を提案する。
GRAM-R$^2$は、嗜好ラベルだけでなく、報酬の有理性も生み出すために訓練された生成的報酬モデルである。
GRAM-R$^2$は報酬推論の基礎モデルとして機能し、最小あるいは追加の微調整なしで幅広いタスクに適用できる。
レスポンスランキングやタスク固有の報酬チューニングといったダウンストリームアプリケーションをサポートすることができる。
GRAM-R$^2$の応答ランキング,タスク適応,人的フィードバックからの強化学習実験により,GRAM-R$^2$は,強い差別的・生成的ベースラインよりも優れた性能を発揮することが示された。
関連論文リスト
- GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。