論文の概要: Grad2Reward: From Sparse Judgment to Dense Rewards for Improving Open-Ended LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.01791v1
- Date: Mon, 02 Feb 2026 08:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.005771
- Title: Grad2Reward: From Sparse Judgment to Dense Rewards for Improving Open-Ended LLM Reasoning
- Title(参考訳): Grad2Reward:オープンエンドLDM推論改善のためのスパース判断からDense Rewardsへ
- Authors: Zheng Zhang, Ao Lu, Yuanhao Zeng, Ziwei Shan, Jinjin Guo, Lufei Li, Yexin Li, Kan Ren,
- Abstract要約: Grad2Rewardは、ジャッジのモデル推論プロセスから直接、単一の後方パスを介して、密集したプロセス報酬を抽出する。
Grad2Rewardはグラデーションベースの属性を利用することで、正確なトークンレベルのクレジット割り当てを可能にする。
Grad2Rewardで最適化されたポリシーは、様々なオープンエンドタスクで優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.80588864499134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has catalyzed significant breakthroughs in complex LLM reasoning within verifiable domains, such as mathematics and programming. Recent efforts have sought to extend this paradigm to open-ended tasks by employing LLMs-as-a-Judge to provide sequence-level rewards for policy optimization. However, these rewards are inherently sparse, failing to provide the fine-grained supervision necessary for generating complex, long-form trajectories. Furthermore, current work treats the Judge as a black-box oracle, discarding the rich intermediate feedback signals encoded in it. To address these limitations, we introduce Grad2Reward, a novel framework that extracts dense process rewards directly from the Judge's model inference process via a single backward pass. By leveraging gradient-based attribution, Grad2Reward enables precise token-level credit assignment, substantially enhancing training efficiency and reasoning quality. Additionally, Grad2Reward introduces a self-judging mechanism, allowing the policy to improve through its own evaluative signals without training specialized reward models or reliance on superior external Judges. The experiments demonstrate that policies optimized with Grad2Reward achieve outstanding performance across diverse open-ended tasks, affirming its effectiveness and broad generalizability.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、数学やプログラミングなどの検証可能な領域において、複雑なLLM推論において重要なブレークスルーを引き起こしている。
近年、政策最適化にLLM-as-a-Judgeを用いて、このパラダイムをオープンエンドタスクに拡張しようと試みている。
しかし、これらの報酬は本質的には希少であり、複雑な長い軌道を発生させるために必要なきめ細かい監督を与えられなかった。
さらに、現在の研究は、ジャッジをブラックボックスのオラクルとして扱い、その中にエンコードされたリッチな中間フィードバック信号を破棄する。
このような制限に対処するために、単一の後方パスを介して、ジャッジのモデル推論プロセスから直接、高密度なプロセス報酬を抽出する新しいフレームワークであるGrad2Rewardを紹介します。
Grad2Rewardは、勾配に基づく属性を活用することにより、正確なトークンレベルのクレジット割り当てを可能にし、トレーニング効率と推論品質を大幅に向上させる。
さらに、Grad2Rewardは自己判断機構を導入し、特別な報酬モデルや優れた外部裁判官への依存を訓練することなく、独自の評価信号を通じてポリシーを改善することができる。
実験により、Grad2Rewardで最適化されたポリシーは、様々なオープンエンドタスクにまたがって優れた性能を達成し、その有効性と広範な一般化性を確認した。
関連論文リスト
- ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering [51.04492568024515]
本稿では,プロセス報酬を微粒化するための新しいフレームワークである確率的プロセススーパービジョン(P2S)を紹介する。
P2Sは、個別の報酬モデルや人間に注釈を付けた推論ステップを必要とせずに、きめ細かいプロセス報酬を提供する。
論文 参考訳(メタデータ) (2026-01-28T14:35:20Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks [12.31210445905605]
ステップレベルの評価と結果の検証を統一するRLアプローチである原則プロセス・リワード(PPR)を導入する。
PPRは幅広いベンチマークで最先端のパフォーマンスを実現し、その顕著な堅牢性と一般化を実証している。
論文 参考訳(メタデータ) (2025-09-29T23:44:55Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。