論文の概要: Grad2Reward: From Sparse Judgment to Dense Rewards for Improving Open-Ended LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.01791v1
- Date: Mon, 02 Feb 2026 08:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.005771
- Title: Grad2Reward: From Sparse Judgment to Dense Rewards for Improving Open-Ended LLM Reasoning
- Title(参考訳): Grad2Reward:オープンエンドLDM推論改善のためのスパース判断からDense Rewardsへ
- Authors: Zheng Zhang, Ao Lu, Yuanhao Zeng, Ziwei Shan, Jinjin Guo, Lufei Li, Yexin Li, Kan Ren,
- Abstract要約: Grad2Rewardは、ジャッジのモデル推論プロセスから直接、単一の後方パスを介して、密集したプロセス報酬を抽出する。
Grad2Rewardはグラデーションベースの属性を利用することで、正確なトークンレベルのクレジット割り当てを可能にする。
Grad2Rewardで最適化されたポリシーは、様々なオープンエンドタスクで優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.80588864499134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has catalyzed significant breakthroughs in complex LLM reasoning within verifiable domains, such as mathematics and programming. Recent efforts have sought to extend this paradigm to open-ended tasks by employing LLMs-as-a-Judge to provide sequence-level rewards for policy optimization. However, these rewards are inherently sparse, failing to provide the fine-grained supervision necessary for generating complex, long-form trajectories. Furthermore, current work treats the Judge as a black-box oracle, discarding the rich intermediate feedback signals encoded in it. To address these limitations, we introduce Grad2Reward, a novel framework that extracts dense process rewards directly from the Judge's model inference process via a single backward pass. By leveraging gradient-based attribution, Grad2Reward enables precise token-level credit assignment, substantially enhancing training efficiency and reasoning quality. Additionally, Grad2Reward introduces a self-judging mechanism, allowing the policy to improve through its own evaluative signals without training specialized reward models or reliance on superior external Judges. The experiments demonstrate that policies optimized with Grad2Reward achieve outstanding performance across diverse open-ended tasks, affirming its effectiveness and broad generalizability.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、数学やプログラミングなどの検証可能な領域において、複雑なLLM推論において重要なブレークスルーを引き起こしている。
近年、政策最適化にLLM-as-a-Judgeを用いて、このパラダイムをオープンエンドタスクに拡張しようと試みている。
しかし、これらの報酬は本質的には希少であり、複雑な長い軌道を発生させるために必要なきめ細かい監督を与えられなかった。
さらに、現在の研究は、ジャッジをブラックボックスのオラクルとして扱い、その中にエンコードされたリッチな中間フィードバック信号を破棄する。
このような制限に対処するために、単一の後方パスを介して、ジャッジのモデル推論プロセスから直接、高密度なプロセス報酬を抽出する新しいフレームワークであるGrad2Rewardを紹介します。
Grad2Rewardは、勾配に基づく属性を活用することにより、正確なトークンレベルのクレジット割り当てを可能にし、トレーニング効率と推論品質を大幅に向上させる。
さらに、Grad2Rewardは自己判断機構を導入し、特別な報酬モデルや優れた外部裁判官への依存を訓練することなく、独自の評価信号を通じてポリシーを改善することができる。
実験により、Grad2Rewardで最適化されたポリシーは、様々なオープンエンドタスクにまたがって優れた性能を達成し、その有効性と広範な一般化性を確認した。
関連論文リスト
- ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering [51.04492568024515]
本稿では,プロセス報酬を微粒化するための新しいフレームワークである確率的プロセススーパービジョン(P2S)を紹介する。
P2Sは、個別の報酬モデルや人間に注釈を付けた推論ステップを必要とせずに、きめ細かいプロセス報酬を提供する。
論文 参考訳(メタデータ) (2026-01-28T14:35:20Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks [12.31210445905605]
ステップレベルの評価と結果の検証を統一するRLアプローチである原則プロセス・リワード(PPR)を導入する。
PPRは幅広いベンチマークで最先端のパフォーマンスを実現し、その顕著な堅牢性と一般化を実証している。
論文 参考訳(メタデータ) (2025-09-29T23:44:55Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Response-Level Rewards Are All You Need for Online Reinforcement Learning in LLMs: A Mathematical Perspective [6.069069082518759]
大規模言語モデル(LLM)の強化学習におけるゼロ・リワード推定について検討する。
反応レベル報酬モデルのみを用いて、真で未知のトークンレベルの報酬に基づくポリシー勾配を不偏に推定できることを示す。
我々は,新しいアルゴリズム,Token-Reinforced Policy Optimization (TRePO)を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:31Z) - Process Reinforcement through Implicit Rewards [94.09453548052862]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。
ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。
これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。
提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文 参考訳(メタデータ) (2025-02-03T15:43:48Z) - Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
本稿では,まず簡単な報奨関数を最大化し,次に完全かつ複雑な報奨に遷移する2段階の報奨カリキュラムを提案する。
我々はDeepMindコントロールスイート上で,報酬定義に付加的な制約項を含むように修正した手法を評価する。
以上の結果から, 複雑な報酬を伴う環境において, 効率的かつ安定したRLに対する2段階報酬キュリキュラの可能性が示された。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。