論文の概要: When and Why Does Unsupervised RL Succeed in Mathematical Reasoning? A Manifold Envelopment Perspective
- arxiv url: http://arxiv.org/abs/2603.16578v1
- Date: Tue, 17 Mar 2026 14:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.33947
- Title: When and Why Does Unsupervised RL Succeed in Mathematical Reasoning? A Manifold Envelopment Perspective
- Title(参考訳): 数理推論における教師なしRLの成立の時期と理由 : マニフォールド展開の視点から
- Authors: Zelin Zhang, Fei Cheng, Chenhui Chu,
- Abstract要約: 結果に基づく強化学習(RL)は大規模言語モデル(LLM)の数学的推論能力を著しく向上させる
計算コストのかかる地平線アノテーションに依存しているため、スケーラビリティの重大なボトルネックが生じる。
内在的な報酬によって導かれる教師なしのRLは、スケーラブルな代替手段を提供する。
- 参考スコア(独自算出の注目度): 23.239530219575936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although outcome-based reinforcement learning (RL) significantly advances the mathematical reasoning capabilities of Large Language Models (LLMs), its reliance on computationally expensive ground-truth annotations imposes a severe scalability bottleneck. Unsupervised RL guided by intrinsic rewards offers a scalable alternative, yet it suffers from opaque training dynamics and catastrophic instability, such as policy collapse and reward hacking. In this paper, we first design and evaluate a suite of intrinsic rewards that explicitly enforce concise and certain generation. Second, to discover the boundaries of this approach, we test base models across a spectrum of intrinsic reasoning capabilities, revealing how a model's foundational logical prior dictates its success or failure. Finally, to demystify why certain configurations stabilize while others collapse, we introduce a novel geometric diagnostic lens, showing that successful cases are enveloped by manifolds. Ultimately, our work goes beyond merely demonstrating that enforcing concise and certain responses successfully boosts mathematical reasoning; we reveal when this unsupervised approach breaks down and geometrically diagnose why.
- Abstract(参考訳): 結果に基づく強化学習(RL)は,大規模言語モデル(LLM)の数学的推論能力を大幅に向上させるが,計算コストのかかる接地トラスアノテーションに依存しているため,スケーラビリティの重大なボトルネックが生じる。
内在的な報酬によって導かれる教師なしのRLは、スケーラブルな代替手段を提供するが、不透明なトレーニングのダイナミクスと、政策崩壊や報酬ハッキングのような破滅的な不安定さに悩まされている。
本稿では、まず、簡潔さと特定の世代を明示的に強制する本質的な報酬群を設計し、評価する。
第二に、このアプローチの境界を見つけるために、本質的な推論能力のスペクトルにわたってベースモデルをテストし、モデルの基本的な論理的前提がその成功や失敗を判断する方法を明らかにします。
最後に、ある構成が安定し、他の構成が崩壊する理由を明らかにするために、新しい幾何学的診断レンズを導入し、成功事例が多様体によって包まれていることを示す。
結局のところ、我々の研究は、簡潔さと特定の反応を強制することが数学的推論を後押しすることを示すだけでなく、この教師なしのアプローチが故障し、なぜ幾何学的に診断されるのかを明らかにします。
関連論文リスト
- Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models [0.0]
強化学習(RL)は,大規模言語と推論モデル(LLMs/LRMs)の行動形成において重要な役割を担っている
しかし、しばしば不安定で不安定なポリシーを生み出し、急激な推論、偽りのアライメント、命令の不服従といった重大な失敗に繋がる。
本稿では,報酬関数から最適ポリシーへの写像の安定性を解析するための厳密な数学的枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-27T06:56:10Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - A Comment On "The Illusion of Thinking": Reframing the Reasoning Cliff as an Agentic Gap [0.39073867995073247]
我々は、観測された失敗は基本的な認知境界の証拠ではなく、システムレベルの制約の予測可能な結果であると主張している。
当初、テキストのみの世代に限定してパズルを宣言することは不可能であると宣言されたモデルは、現在ではエージェントツールを使用して解決するだけでなく、それまで克服できなかった難易度をはるかに超える複雑さを習得している。
論文 参考訳(メタデータ) (2025-06-23T17:14:21Z) - When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [19.354141845315276]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。