論文の概要: Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2508.10751v1
- Date: Thu, 14 Aug 2025 15:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.385171
- Title: Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
- Title(参考訳): Pass@kによる大規模共振モデルの探索と爆発の適応的バランシング訓練
- Authors: Zhipeng Chen, Xiaobo Qin, Youbin Wu, Yue Ling, Qinghao Ye, Wayne Xin Zhao, Guang Shi,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、探索と搾取のバランスをとる上で問題に直面している。
Pass@kを使ってポリシーモデルをトレーニングし(例えば$textbfPass@k Training$)、探索能力の改善を観察します。
Pass@k Trainingの利点を生かした分析的ソリューションを導き,効率的かつ効率的なプロセスを実現する。
- 参考スコア(独自算出の注目度): 47.10665066583063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR), which typically adopts Pass@1 as the reward, has faced the issues in balancing exploration and exploitation, causing policies to prefer conservative actions, converging to a local optimum. Identifying an appropriate reward metric is therefore crucial. Regarding the prior work, although Pass@k has been used in evaluation, its connection to LLM exploration ability in RLVR remains largely overlooked. To investigate this, we first use Pass@k as the reward to train the policy model (i.e., $\textbf{Pass@k Training}$), and observe the improvement on its exploration ability. Next, we derive an analytical solution for the advantage of Pass@k Training, leading to an efficient and effective process. Building on this, our analysis reveals that exploration and exploitation are not inherently conflicting objectives, while they can mutually enhance each other. Moreover, Pass@k Training with analytical derivation essentially involves directly designing the advantage function. Inspired by this, we preliminarily explore the advantage design for RLVR, showing promising results and highlighting a potential future direction.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RLVR)は、通常、Pass@1を報酬として採用するが、探索と搾取のバランスの問題に直面しており、政策は保守的な行動を優先し、局所的な最適条件に収束する。
したがって、適切な報酬基準を特定することが重要である。
以前の研究については、Pass@kは評価に使われてきたが、RLVRにおけるLLM探査能力との関連性はほとんど見過ごされ続けている。
これを調べるために、まずPass@kをポリシーモデルをトレーニングする報酬として使用します(例えば、$\textbf{Pass@k Training}$)。
次に、Pass@k Trainingの利点を生かした分析的ソリューションを導き、効率的かつ効果的なプロセスを生み出す。
この結果から,探索と搾取は本質的に相反する目的ではなく,相互に強化できることが明らかとなった。
さらに、解析的導出を伴うPass@kトレーニングは、本質的には、利点関数を直接設計するものである。
これにインスパイアされた我々は、RLVRのアドバンテージデザインを事前に検討し、将来性のある結果を示し、将来的な方向性を浮き彫りにしている。
関連論文リスト
- Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [33.807927649100805]
大規模言語モデル(LLM)の推論能力向上のための重要な手法として強化学習(RL)が登場した。
RLアプローチは、スパース結果に基づく報酬への依存と、探索のインセンティブを高めるための不十分なメカニズムにより、重要な制限に直面している。
固有モチベーション guidEd ExploratioN meThOd foR LLM Reasoning (i-MENTOR) を提案する。
i-MENTORは、トークンレベルの戦略におけるバイアスを軽減する軌道対応探索報酬、大きなアクション空間における探索と利用を安定化するための動的報酬スケーリング、そして、維持する有利な報酬実装の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Exploiting Reward Shifting in Value-Based Deep RL [46.98033035313238]
本稿では,価値に基づくDeep Reinforcement Learningにおける報酬形成の単純かつ普遍的な事例について検討する。
ポジティブな報酬シフトは保守的な搾取につながるが、ネガティブな報酬シフトは好奇心を駆使した探索につながる。
論文 参考訳(メタデータ) (2022-09-15T13:28:30Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。