論文の概要: How RL Unlocks the Aha Moment in Geometric Interleaved Reasoning
- arxiv url: http://arxiv.org/abs/2603.01070v1
- Date: Sun, 01 Mar 2026 12:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.49327
- Title: How RL Unlocks the Aha Moment in Geometric Interleaved Reasoning
- Title(参考訳): RLが幾何学的インターリーブ推論でAhaモーメントをアンロックする方法
- Authors: Xiangxiang Zhang, Caijun Jia, Siyuan Li, Dingyu He, Xiya Xiong, Zheng Sun, Honghao He, Yuchen Wu, Bihui Yu, Linzhuang Sun, Cheng Tan, Jingxuan Wei,
- Abstract要約: 複雑な幾何学的問題を解くには、本質的にインターリーブな推論が必要である。
提案手法は,プロット・ソリューション・データに対するスーパーバイザード・ファイン・チューニング (SFT) によって推論性能が著しく低下することを示した。
表面模倣を超えた3つのカジュアルな制約を強制する強化学習フレームワークであるFairを提案する。
- 参考スコア(独自算出の注目度): 17.18771466838129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving complex geometric problems inherently requires interleaved reasoning: a tight alternation between constructing diagrams and performing logical deductions. Although recent Multimodal Large Language Models (MLLMs) have demonstrated strong capabilities in visual generation and plotting, we identify a counter-intuitive and underexplored phenomenon. Naively applying Supervised Fine-Tuning (SFT) on interleaved plot-solution data leads to a substantial degradation in reasoning performance compared to text-only baselines. We argue that this failure stems from a fundamental limitation of SFT, which primarily induces distributional alignment: the model learns to reproduce the surface format of interleaved plotting but fails to internalize the causal dependency between the generated plot and reasoning steps. To overcome this limitation, we propose Faire (Functional alignment for interleaved reasoning), a reinforcement learning framework that enforces three casual constraints to move beyond superficial imitation toward functional alignment. Extensive experiments show that Faire induces a qualitative shift in model behavior in which the plotting is effectively internalized, yielding competitive performance on challenging geometric reasoning benchmarks.
- Abstract(参考訳): 複雑な幾何学的問題を解くには、本質的にはインターリーブド・推論(英語版)(Interleaved reasoning)が必要である。
近年のMLLM(Multimodal Large Language Models)は、視覚生成とプロットにおいて強力な能力を示しているが、直感的かつ未探索な現象を同定する。
インターリーブされたプロット-ソリューションデータにSFT(Supervised Fine-Tuning)をネーティブに適用すると、テキストのみのベースラインに比べて推論性能が大幅に低下する。
我々は、この失敗は、主に分布アライメントを誘導するSFTの基本的な制限に由来すると論じる: モデルは、インターリーブドプロットの表面形式を再現することを学ぶが、生成されたプロットと推論ステップの間の因果依存性を内部化することができない。
この制限を克服するために,3つのカジュアルな制約を課す強化学習フレームワークであるFair(Functional alignment for interleaved reasoning)を提案する。
大規模な実験により、フェアはプロットが効果的に内部化され、挑戦的な幾何学的推論ベンチマーク上での競合性能をもたらすモデル行動の質的な変化を誘導することが示された。
関連論文リスト
- Native Reasoning Models: Training Language Models to Reason on Unverifiable Data [16.065264121785294]
NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
NRTは検証不要な手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-12T04:15:46Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Figure It Out: Improve the Frontier of Reasoning with Executable Visual States [53.77871196174248]
複雑な推論問題はしばしば、テキストに明示的にエンコードされていない暗黙の空間的および幾何学的関係を含む。
FIGRを導入し、エンドツーエンドの強化学習を通じて、実行可能な視覚構成を多ターン推論に統合する。
8つの挑戦的な数学ベンチマークの実験により、FIGRは強いテキストのみのチェーン・オブ・シークレット・ベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-12-30T15:39:11Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model [29.40036398095681]
推論多様体(Reasoning Manifold)は、すべての正しく推論された世代に対応する内部表現によって形成される潜在低次元幾何学構造である。
誤りと正しい推論サンプルに対応する内部モデル表現の空間的関係を定量的に比較することにより,障害の起源を説明するフレームワークであるREMAを構築した。
多様な言語およびマルチモーダルモデルおよびタスクに関する実験は、推論多様体の低次元の性質と誤った推論表現と正しい推論表現の間の高い分離性を示す。
論文 参考訳(メタデータ) (2025-09-26T16:02:27Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - FFHFlow: Diverse and Uncertainty-Aware Dexterous Grasp Generation via Flow Variational Inference [36.02645364048733]
本稿では,多種多様な頑健なマルチフィンガーグリップを生成するフローベース変分フレームワークFFHFlowを提案する。
流れの可逆性と正確な確率を利用して、FFHFlowは部分的な観測において不確実性を形成する。
また,不確実性を考慮したランキング戦略を定式化することにより,識別的把握評価器をフロー可能性と統合する。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。