論文の概要: New Skills or Sharper Primitives? A Probabilistic Perspective on the Emergence of Reasoning in RLVR
- arxiv url: http://arxiv.org/abs/2602.08281v1
- Date: Mon, 09 Feb 2026 05:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.07553
- Title: New Skills or Sharper Primitives? A Probabilistic Perspective on the Emergence of Reasoning in RLVR
- Title(参考訳): 新しいスキルとシャーパープリミティブ : RLVRにおける推論の創発に関する確率論的視点
- Authors: Zhilin Wang, Yafu Li, Shunkai Zhang, Zhi Wang, Haoran Zhang, Xiaoye Qu, Yu Cheng,
- Abstract要約: 本稿では,インスタンスレベルの可解性によって能力が定義される確率的フレームワークを提案する。
シングルステップ操作のみにモデルをトレーニングし、目に見えないマルチステップタスクのパフォーマンスを評価する。
我々の研究は、RLVRにおける創発的能力の新たな説明を提供し、解決不可能な問題の反復的最適化により、モデルが以前に解決不可能なシナリオに対処する能力を開発することができることを示唆している。
- 参考スコア(独自算出の注目度): 44.98294610511283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether Reinforcement Learning with Verifiable Rewards (RLVR) endows Large Language Models (LLMs) with new capabilities or merely elicits latent traces remains a central debate. In this work, we align with the former view, proposing a probabilistic framework where capability is defined by instance-level solvability. We hypothesize that the emergence of complex reasoning can be driven by sharpening atomic step probabilities, which enables models to overcome the exponential decay of success rates inherent in multi-step reasoning chains. Utilizing the Algebrarium framework, we train models exclusively on single-step operations and evaluate their performance on unseen multi-step tasks. Our empirical results confirm that: (1) RLVR incentivizes the exploration of previously inaccessible solution paths by amplifying the model's existing skills; (2) composite performance is strictly governed by the joint probability of atomic steps, evidenced by high Pearson correlation coefficients ($ρ\in [0.69, 0.96]$); and (3) RLVR, acting as a global optimizer, can cause specific skills to be sacrificed to maximize aggregate reward. Our work offers a novel explanation for emergent abilities in RLVR, suggesting that the iterative optimization of solvable problems enables models to develop the capabilities to tackle previously unsolvable scenarios.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)が新たな能力を持つLarge Language Models(LLMs)を提供するのか、それとも単に遅延トレースを引き出すだけなのかは、依然として中心的な議論である。
本研究では,インスタンスレベルの可解性によって能力が定義される確率的フレームワークを提案する。
複雑な推論の出現は、多段階推論連鎖に固有の成功率の指数的減衰をモデルが克服できる原子ステップ確率の急激化によって引き起こすことができると仮定する。
Algebrariumフレームワークを利用することで、シングルステップ操作のみにモデルをトレーニングし、目に見えないマルチステップタスクのパフォーマンスを評価する。
実験の結果, 1) RLVRは, 既存のスキルを増幅することにより, 到達不能な解経路の探索を動機付け, 2) 合成性能は, 高ピアソン相関係数(ρ\in [0.69, 0.96]$), (3) RLVRはグローバルオプティマイザとして機能し, 特定のスキルを犠牲にしてアグリゲーション報酬を蓄積する。
我々の研究は、RLVRにおける創発的能力の新たな説明を提供し、解決不可能な問題の反復的最適化により、モデルが以前に解決不可能なシナリオに対処する能力を開発することができることを示唆している。
関連論文リスト
- Generalization of RLVR Using Causal Reasoning as a Testbed [20.97376329817835]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの訓練後において有望なパラダイムとして登場した。
本稿では,因果モデルに対する確率的推論の設定におけるRLVR一般化の実証的研究について述べる。
論文 参考訳(メタデータ) (2025-12-23T20:45:31Z) - How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - The Invisible Leash: Why RLVR May or May Not Escape Its Origin [47.488691410579925]
RLVRの現在の実践がモデルの推論境界を真に拡張するかどうかは不明である。
現在の訓練条件下では、RLVRはサポート制約付き最適化メカニズムとして動作することができる。
RLVRは精度を確実に向上させるが、探索は徐々に狭くなり、正しく表現されていない解を見落としてしまう可能性がある。
論文 参考訳(メタデータ) (2025-07-20T07:04:08Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。