論文の概要: Learning Structured Reasoning via Tractable Trajectory Control
- arxiv url: http://arxiv.org/abs/2603.01641v1
- Date: Mon, 02 Mar 2026 09:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.789032
- Title: Learning Structured Reasoning via Tractable Trajectory Control
- Title(参考訳): トラクタブル軌道制御による構造推論の学習
- Authors: Po-Nien Kung, Zhen Yang, Jeffrey Luo, Cheng-Fu Yang, Haikang Deng, Zi-Yi Dou, Yinfei Yang, Nanyun Peng, Zhe Gan, Kai-Wei Chang,
- Abstract要約: Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
- 参考スコア(独自算出の注目度): 99.75278337895024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can exhibit emergent reasoning behaviors, often manifested as recurring lexical patterns (e.g., "wait," indicating verification). However, complex reasoning trajectories remain sparse in unconstrained sampling, and standard RL often fails to guarantee the acquisition of diverse reasoning behaviors. We propose a systematic discovery and reinforcement of diverse reasoning patterns through structured reasoning, a paradigm that requires targeted exploration of specific reasoning patterns during the RL process. To this end, we propose Ctrl-R, a framework for learning structured reasoning via tractable trajectory control that actively guides the rollout process, incentivizing the exploration of diverse reasoning patterns that are critical for complex problem-solving. The resulting behavior policy enables accurate importance-sampling estimation, supporting unbiased on-policy optimization. We further introduce a power-scaling factor on the importance-sampling weights, allowing the policy to selectively learn from exploratory, out-of-distribution trajectories while maintaining stable optimization. Experiments demonstrate that Ctrl-R enables effective exploration and internalization of previously unattainable reasoning patterns, yielding consistent improvements across language and vision-language models on mathematical reasoning tasks.
- Abstract(参考訳): 大規模な言語モデルは、しばしば反復的な語彙パターン(例えば、"wait"、検証を示す)として現れる創発的な推論行動を示す。
しかし、複雑な推論軌道は、制約のないサンプリングでは依然として疎いままであり、標準的なRLは様々な推論行動の獲得を保証するのに失敗することが多い。
本稿では,RL過程における特定の推論パターンの探索を対象とするパラダイムである構造化推論を用いて,多様な推論パターンの体系的発見と強化を提案する。
そこで本研究では,複雑な問題解決に不可欠な多種多様な推論パターンの探索にインセンティブを与え,展開過程を積極的にガイドするトラジェクトリ制御による構造化推論の学習フレームワークであるCtrl-Rを提案する。
結果として生じる行動ポリシーは、重要度サンプリングの正確な推定を可能にし、非バイアスのオン・ポリティクス最適化をサポートする。
さらに、重み付けの重み付けにパワースケーリング係数を導入し、安定な最適化を維持しつつ、探索的、分布外軌道から選択的に学習できるようにする。
実験により、Ctrl-Rは、それまで達成できなかった推論パターンの効率的な探索と内部化を可能にし、数学的推論タスクにおける言語モデルと視覚言語モデルの間で一貫した改善をもたらすことが示された。
関連論文リスト
- Native Reasoning Models: Training Language Models to Reason on Unverifiable Data [16.065264121785294]
NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
NRTは検証不要な手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-12T04:15:46Z) - Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient [27.26870804635122]
大規模言語モデル(LLM)は、複雑な現実世界の問題を解く上で強力な推論能力を示す。
複雑な推論行動を引き起こす 内部メカニズムは いまだ不透明です
モデルの内部コンポーネントに推論の振る舞いを属性付ける新しいフレームワークである統合ポリシーグラディエント(IPG)を提案する。
論文 参考訳(メタデータ) (2026-02-02T16:43:09Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。
しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。
現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。
我々はメタ認知推論フレームワーク(MERA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T13:59:17Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。