論文の概要: rePIRL: Learn PRM with Inverse RL for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.07832v1
- Date: Sun, 08 Feb 2026 05:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.823118
- Title: rePIRL: Learn PRM with Inverse RL for LLM Reasoning
- Title(参考訳): rePIRL: LLM推論のための逆RLでPRMを学ぶ
- Authors: Xian Wu, Kaijie Zhu, Ying Zhang, Lun Wang, Wenbo Guo,
- Abstract要約: rePIRLは、専門家ポリシーに関する最小限の仮定で効果的なPRMを学ぶ、逆RLにインスパイアされたフレームワークである。
提案する学習フレームワークは,オンライン学習とオフライン学習の両方を統合可能であることを示す。
また、テストタイムトレーニング、テストタイムスケーリング、および難しい問題をトレーニングするための早期信号の提供において、トレーニング済みのPRMの応用を示す。
- 参考スコア(独自算出の注目度): 20.51736503252891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Process rewards have been widely used in deep reinforcement learning to improve training efficiency, reduce variance, and prevent reward hacking. In LLM reasoning, existing works also explore various solutions for learning effective process reward models (PRM) with or without the help of an expert policy. However, existing methods either rely on strong assumptions about the expert policies (e.g., requiring their reward functions) or suffer intrinsic limitations (e.g., entropy collapse), resulting in weak PRMs or limited generalizability. In this paper, we introduce rePIRL, an inverse RL-inspired framework that learns effective PRMs with minimal assumptions about expert policies. Specifically, we design a dual learning process that updates the policy and the PRM interchangeably. Our learning algorithm has customized techniques to address the challenges of scaling traditional inverse RL to LLMs. We theoretically show that our proposed learning framework can unify both online and offline PRM learning methods, justifying that rePIRL can learn PRMs with minimal assumptions. Empirical evaluations on standardized math and coding reasoning datasets demonstrate the effectiveness of rePIRL over existing methods. We further show the application of our trained PRM in test-time training, test-time scaling, and providing an early signal for training hard problems. Finally, we validate our training recipe and key design choices via a detailed ablation study.
- Abstract(参考訳): プロセス報酬は、訓練効率を改善し、分散を低減し、報酬のハッキングを防ぐために、深層強化学習で広く使用されている。
LLM推論において、既存の研究は、エキスパートポリシーの助けなしに効果的なプロセス報酬モデル(PRM)を学ぶための様々なソリューションも探求している。
しかし、既存の手法は、専門家ポリシー(例えば、報酬関数を必要とする)に関する強い仮定に依存するか、本質的な制限(例えば、エントロピー崩壊)に悩まされ、弱いPRMや限定的な一般化可能性をもたらす。
本稿では、エキスパートポリシーに関する最小限の仮定で効果的なPRMを学習する逆RLにインスパイアされたフレームワークであるrePIRLを紹介する。
具体的には、ポリシーとPRMを相互に更新する2つの学習プロセスを設計する。
我々の学習アルゴリズムは、従来の逆RLをLLMにスケールする際の課題に対処する手法をカスタマイズした。
提案する学習フレームワークがオンラインとオフラインのPRM学習手法を統合可能であることを理論的に示し、rePIRLが最小限の仮定でPRMを学習できることを正当化する。
標準化された数学とコーディング推論データセットに関する実証的な評価は、既存の手法よりもrePIRLの有効性を示す。
さらに、テストタイムトレーニング、テストタイムスケーリング、および難しい問題をトレーニングするための早期信号の提供において、トレーニング済みのPRMの応用を示す。
最後に、詳細なアブレーション研究により、トレーニングレシピとキーデザインの選択を検証した。
関連論文リスト
- Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。
本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。
我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文 参考訳(メタデータ) (2025-05-20T14:12:05Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。
我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文 参考訳(メタデータ) (2024-12-02T21:20:02Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。