論文の概要: From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space
- arxiv url: http://arxiv.org/abs/2604.14142v1
- Date: Wed, 15 Apr 2026 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.670881
- Title: From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space
- Title(参考訳): P(y|x)$から$P(y)$: プレトレイン空間における強化学習の調査
- Authors: Yuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu,
- Abstract要約: 我々は、P(y)に直接報酬駆動オンライン更新を適用するPre-train Space RL(Pre-train Space RL)を紹介する。
PreRL内の負のサンプル強化(NSR)は、推論のための非常に効果的なドライバとして機能します。
そこで我々は,NSR-PreRLでモデルの初期化を図った政策再導入戦略であるDual Space RL (DSRL)を提案する。
- 参考スコア(独自算出の注目度): 38.33074456644293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.
- Abstract(参考訳): 検証可能な報奨(RLVR)による強化学習は条件分布P(y|x)を最適化することによりLLM推論を著しく向上させるが、そのポテンシャルはベースモデルの既存の出力分布によって根本的に制限される。
プリトレイン空間における限界分布P(y)の最適化は、推論能力の符号化と広い探索能力の保存により、このボトルネックに対処する。
しかし、従来の事前学習は受動的学習のための静的コーパスに依存しており、ターゲット推論の強化を妨げる分布シフトにつながっている。
本稿では,P(y) に直接報酬駆動型オンライン更新を適用する PreRL (Pre-train Space RL) を紹介する。
理論的および実験的に、log P(y) と log P(y|x) の強い勾配アライメントを検証し、PreRL を標準 RL のサロゲートとして確立する。
PreRL内の負のサンプル強化(NSR)は、推論のための非常に効果的なドライバとして機能します。
NSR-PreRLは、内因性反射の振る舞いを刺激し、遷移と反射の思考をそれぞれ14.89xと6.54xに増加させながら、誤った推論空間を急速に引き起こす。
これらの知見を生かして、NSR-PreRLでモデルの初期化を行い、より詳細な最適化のために標準RLに移行する前に、推論の地平を広げる政策再導入戦略であるDual Space RL(DSRL)を提案する。
大規模な実験により、DSRLは強い基底線を一貫して上回り、プレトレイン空間のプルーニングが、洗練された正しい推論部分空間への方針を効果的に決定することを示した。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Beyond Alignment: Expanding Reasoning Capacity via Manifold-Reshaping Policy Optimization [1.974921946982281]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力の向上に成功している。
近年の研究では、RLが推論能力を真に拡張するか、あるいは既存の潜在能力を単に整合させるかが疑問視されており、探索は事前訓練されたモデルの低ランクバイアス多様体に限られていると主張している。
我々は,LLMの推論空間を根本的に再構成する幾何学的フレームワークであるマニフォールド変換ポリシー最適化(MRPO)を提案する。
論文 参考訳(メタデータ) (2026-01-30T05:38:44Z) - Diversity or Precision? A Deep Dive into Next Token Prediction [19.30494719444709]
本研究では,事前学習したトークン出力分布が,その後の強化学習の探索ポテンシャルをいかに形成するかを検討する。
精度指向の勾配を先行させると、RLのより優れた探索空間が得られることが分かる。
論文 参考訳(メタデータ) (2025-12-28T14:53:24Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Intrinsic Benefits of Categorical Distributional Loss: Uncertainty-aware Regularized Exploration in Reinforcement Learning [29.964769689183285]
分布RLの潜在的優位性は、導出分布整合エントロピー正則化に起因すると考えられる。
本研究は,RLにおける分布学習の本質的なメリットを説明するために,革新的な探索的視点を提供する。
論文 参考訳(メタデータ) (2021-10-07T03:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。