論文の概要: Well Begun, Half Done: Reinforcement Learning with Prefix Optimization for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2512.15274v1
- Date: Wed, 17 Dec 2025 10:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.935478
- Title: Well Begun, Half Done: Reinforcement Learning with Prefix Optimization for LLM Reasoning
- Title(参考訳): Well Begun, Half Done: LLM推論の修正最適化による強化学習
- Authors: Yiliu Sun, Zicheng Zhao, Yang Wei, Yanfang Zhang, Chen Gong,
- Abstract要約: RLVRによる強化学習は大規模言語モデル(LLM)の推論能力を大幅に向上させる
現在のRLVRアプローチは、通常、生成されたトークンをまたいでトレーニングを行うが、どのトークン(例えばプレフィックストークン)が実際に推論に寄与するかを調査することは無視される。
本稿では,POP(Progressive Prefix-token Policy Optimization)と呼ばれる新しいRLVR手法を提案する。
- 参考スコア(独自算出の注目度): 18.477056077256233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) significantly enhances the reasoning capability of Large Language Models (LLMs). Current RLVR approaches typically conduct training across all generated tokens, but neglect to explore which tokens (e.g., prefix tokens) actually contribute to reasoning. This uniform training strategy spends substantial effort on optimizing low-return tokens, which in turn impedes the potential improvement from high-return tokens and reduces overall training effectiveness. To address this issue, we propose a novel RLVR approach called Progressive Prefix-token Policy Optimization (PPPO), which highlights the significance of the prefix segment of generated outputs. Specifically, inspired by the well-established human thinking theory of Path Dependence, where early-stage thoughts substantially constrain subsequent thinking trajectory, we identify an analogous phenomenon in LLM reasoning termed Beginning Lock-in Effect (BLE). PPPO leverages this finding by focusing its optimization objective on the prefix reasoning process of LLMs. This targeted optimization strategy can positively influence subsequent reasoning processes, and ultimately improve final results. To improve the learning effectiveness of LLMs on how to start reasoning with high quality, PPPO introduces two training strategies: (a) Progressive Prefix Retention, which shapes a progressive learning process by increasing the proportion of retained prefix tokens during training; (b) Continuation Accumulated Reward, which mitigates reward bias by sampling multiple continuations for one prefix token sequence, and accumulating their scores as the reward signal. Extensive experimental results on various reasoning tasks demonstrate that our proposed PPPO outperforms representative RLVR methods, with the accuracy improvements of 18.02% on only 26.17% training tokens.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLM) の推論能力を大幅に向上させる。
現在のRLVRアプローチは、通常、生成されたトークンをまたいでトレーニングを行うが、どのトークン(例えばプレフィックストークン)が実際に推論に寄与するかを調査することは無視する。
この均一なトレーニング戦略は、低リターントークンの最適化に多大な労力を費やし、その結果、高リターントークンの潜在的な改善を阻害し、全体的なトレーニング効率を低下させる。
そこで本研究では,POP(Progressive Prefix-token Policy Optimization)と呼ばれる新しいRLVR手法を提案する。
具体的には、初期思考が後続の思考軌跡を著しく制約するパス依存という、確立された人間の思考理論に着想を得て、LLM推論における類似現象を、BLE(Startow Lock-in Effect)と呼ぶ。
PPPOは、LLMのプレフィックス推論プロセスに最適化目標を集中させることで、この発見を活用する。
この最適化戦略は、その後の推論プロセスに肯定的な影響を与え、最終的な結果を改善することができる。
高品質な推論を始めるためのLLMの学習効率を改善するため、PPPOは2つのトレーニング戦略を導入した。
(a)訓練中の留置前トークンの割合を増大させることにより、進歩的学習過程を形作る進歩的前置留置
b)1つの接頭辞列に対する複数の継続をサンプリングし、そのスコアを報酬信号として蓄積することにより、報酬バイアスを緩和する継続累積リワード。
様々な推論タスクに関する大規模な実験結果から,提案したPPPOは,26.17%のトレーニングトークンに対して18.02%の精度向上を達成し,代表的RLVR法よりも優れていた。
関連論文リスト
- Rectifying LLM Thought from Lens of Optimization [48.98086817378953]
ロングチェーン・オブ・シンクレット (Long chain-of- Thought, CoT) は、徹底的な調査と検討を可能にする。
進歩にもかかわらず、長いCoT LLMは、しばしば最適な推論行動を示す。
ポストトレーニング中のLCM推論を洗練するための新しい手法であるReProを紹介する。
論文 参考訳(メタデータ) (2025-12-01T17:41:08Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。