論文の概要: Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS
- arxiv url: http://arxiv.org/abs/2508.14313v1
- Date: Tue, 19 Aug 2025 23:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.289962
- Title: Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS
- Title(参考訳): RLのリワード機能は検索に最適なPRM:RLと検索ベースのTSを統合する
- Authors: Can Jin, Yang Zhou, Qixin Zhang, Hongwu Peng, Di Zhang, Marco Pavone, Ligong Han, Zhang-Wei Hong, Tong Che, Dimitris N. Metaxas,
- Abstract要約: 本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
- 参考スコア(独自算出の注目度): 46.71619976128825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling (TTS) for large language models (LLMs) has thus far fallen into two largely separate paradigms: (1) reinforcement learning (RL) methods that optimize sparse outcome-based rewards, yet suffer from instability and low sample efficiency; and (2) search-based techniques guided by independently trained, static process reward models (PRMs), which require expensive human- or LLM-generated labels and often degrade under distribution shifts. In this paper, we introduce AIRL-S, the first natural unification of RL-based and search-based TTS. Central to AIRL-S is the insight that the reward function learned during RL training inherently represents the ideal PRM for guiding downstream search. Specifically, we leverage adversarial inverse reinforcement learning (AIRL) combined with group relative policy optimization (GRPO) to learn a dense, dynamic PRM directly from correct reasoning traces, entirely eliminating the need for labeled intermediate process data. At inference, the resulting PRM simultaneously serves as the critic for RL rollouts and as a heuristic to effectively guide search procedures, facilitating robust reasoning chain extension, mitigating reward hacking, and enhancing cross-task generalization. Experimental results across eight benchmarks, including mathematics, scientific reasoning, and code generation, demonstrate that our unified approach improves performance by 9 % on average over the base model, matching GPT-4o. Furthermore, when integrated into multiple search algorithms, our PRM consistently outperforms all baseline PRMs trained with labeled data. These results underscore that, indeed, your reward function for RL is your best PRM for search, providing a robust and cost-effective solution to complex reasoning tasks in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるテストタイムスケーリング(TTS)は,(1)疎度な結果に基づく報酬を最適化する強化学習(RL)手法と,(2)高額な人為的・LLM生成ラベルを必要とする独立訓練型静的プロセス報酬モデル(PRM)による検索ベース手法の2つのパラダイムに大きく分かれている。
本稿では,RLベースおよび検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
AIRL-Sの中心は、RLトレーニング中に学んだ報酬関数が本質的に下流探索を導くのに理想的なPRMである、という洞察である。
具体的には、逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせて、正しい推論トレースから直接密度の高い動的PRMを学習し、ラベル付き中間プロセスデータの必要性を完全に排除する。
推論において、結果のPRMは同時にRLロールアウトの批判として機能し、探索手順を効果的にガイドし、堅牢な推論チェーン拡張を促進し、報酬のハッキングを緩和し、クロスタスクの一般化を強化する。
数学, 科学的推論, コード生成を含む8つのベンチマークによる実験結果から, GPT-4o に適合するベースモデルの平均値において, 統一的なアプローチにより, 性能が9%向上することが示された。
さらに、複数の検索アルゴリズムに統合されると、PRMはラベル付きデータで訓練された全てのベースラインPRMよりも一貫して優れる。
これらの結果は、実際にRLに対する報酬関数が検索に最適なPRMであり、LLMの複雑な推論タスクに対する堅牢で費用対効果の高いソリューションであることを示している。
関連論文リスト
- Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
本稿では,従来のRLによるタスクごとの学習をMeta-RLに入力するハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$よりも長期で累積的な報酬を得られる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューション・タスクをより一般化することを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。