論文の概要: Beyond Alignment: Expanding Reasoning Capacity via Manifold-Reshaping Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.02545v1
- Date: Fri, 30 Jan 2026 05:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.920356
- Title: Beyond Alignment: Expanding Reasoning Capacity via Manifold-Reshaping Policy Optimization
- Title(参考訳): Beyond Alignment: Manifold-Reshaping Policy Optimizationによる推論能力の拡張
- Authors: Dayu Wang, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力の向上に成功している。
近年の研究では、RLが推論能力を真に拡張するか、あるいは既存の潜在能力を単に整合させるかが疑問視されており、探索は事前訓練されたモデルの低ランクバイアス多様体に限られていると主張している。
我々は,LLMの推論空間を根本的に再構成する幾何学的フレームワークであるマニフォールド変換ポリシー最適化(MRPO)を提案する。
- 参考スコア(独自算出の注目度): 1.974921946982281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated remarkable success in enhancing the reasoning capabilities of Large Language Models (LLMs). However, recent studies question whether RL genuinely expands reasoning capacity or merely aligns existing latent capabilities, arguing that exploration remains confined within the pre-trained model's low-rank bias manifold. In this work, we challenge this accessibility boundary hypothesis by demonstrating that the latent reasoning space can be fundamentally expanded through targeted geometric interventions. We propose Manifold-Reshaping Policy Optimization (MRPO), a geometric framework designed to fundamentally restructure the inference space of LLMs. MRPO operates in two stages: first, we employ Spectral Orthogonal Exploration (SOE) to eject the policy initialization into the null space of the bias manifold; second, we integrate an Effective Rank regularization term into the policy optimization objective. This approach incentivizes the discovery and maintenance of high-dimensional reasoning trajectories against the entropy-reducing tendency of standard RL. Empirically, our 4B-parameter method achieves state-of-the-art performance on mathematical tasks, significantly outperforming larger models (e.g., Qwen3-32B) and expanding the capability boundary beyond standard GRPO. Our code is available at https://anonymous.4open.science/r/MRPO-D57B/
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力の向上に成功している。
しかし、最近の研究は、RLが真の推論能力を拡張するのか、それとも既存の潜在能力にのみ一致するのかを疑問視しており、探索は事前訓練されたモデルの低ランクバイアス多様体に限られていると主張している。
本研究では、このアクセシビリティ境界仮説に挑戦し、目的の幾何学的介入によって潜在推論空間を根本的に拡張できることを実証する。
我々は,LLMの推論空間を根本的に再構成する幾何学的フレームワークであるマニフォールド変換ポリシー最適化(MRPO)を提案する。
MRPOは、まずスペクトル直交探索(SOE)を用いて、偏微分多様体の零空間にポリシー初期化を射出する。
このアプローチは、標準RLのエントロピー還元傾向に対する高次元推論軌道の発見と維持を動機付けている。
実験的に4Bパラメータ法は,数学的タスクにおける最先端性能を実現し,より大きなモデル(例えばQwen3-32B)を著しく上回り,標準GRPOを超えて能力境界を広げる。
私たちのコードはhttps://anonymous.4open.science/r/MRPO-D57B/で利用可能です。
関連論文リスト
- ReLaX: Reasoning with Latent Exploration for Large Reasoning Models [11.506415241741601]
我々は、トークン生成の根底にある潜在力学が、ステアリングポリシー最適化のためのよりリッチな計算構造を符号化していると論じる。
ReLaX(Reasoning with Latent eXploration)を提案する。
論文 参考訳(メタデータ) (2025-12-08T13:48:33Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Reasoning with Exploration: An Entropy Perspective [111.0659496612249]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。