論文の概要: Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking
- arxiv url: http://arxiv.org/abs/2512.24297v1
- Date: Tue, 30 Dec 2025 15:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.417563
- Title: Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking
- Title(参考訳): 図1:アクティブなビジュアル思考による推論のフロンティアの改善
- Authors: Meiqi Chen, Fandong Meng, Jie Zhou,
- Abstract要約: 複雑な推論問題は、テキストに明示的にエンコードされていない暗黙の空間的、幾何学的、構造的関係を含むことが多い。
FIGRを導入し、エンドツーエンドの強化学習を通して、アクティブな視覚的思考を多ターン推論に統合する。
- 参考スコア(独自算出の注目度): 53.77871196174248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex reasoning problems often involve implicit spatial, geometric, and structural relationships that are not explicitly encoded in text. While recent reasoning models have achieved strong performance across many domains, purely text-based reasoning struggles to represent global structural constraints in complex settings. In this paper, we introduce FIGR, which integrates active visual thinking into multi-turn reasoning via end-to-end reinforcement learning. FIGR externalizes intermediate structural hypotheses by constructing visual representations during problem solving. By adaptively regulating when and how visual reasoning should be invoked, FIGR enables more stable and coherent reasoning over global structural properties that are difficult to capture from text alone. Experiments on challenging mathematical reasoning benchmarks demonstrate that FIGR outperforms strong text-only chain-of-thought baselines. In particular, FIGR improves the base model by 13.12% on AIME 2025 and 11.00% on BeyondAIME, highlighting the effectiveness of figure-guided multimodal reasoning in enhancing the stability and reliability of complex reasoning.
- Abstract(参考訳): 複雑な推論問題は、テキストに明示的にエンコードされていない暗黙の空間的、幾何学的、構造的関係を含むことが多い。
最近の推論モデルは、多くのドメインで強力なパフォーマンスを実現しているが、純粋にテキストベースの推論は、複雑な設定におけるグローバルな構造的制約を表現するのに苦労している。
本稿では,エンドツーエンドの強化学習を通じて,アクティブな視覚的思考を多ターン推論に統合するFIGRを提案する。
FIGRは、問題解決中に視覚的表現を構築することによって、中間構造仮説を外部化する。
FIGRは、いつ、どのように視覚的推論を呼び出すべきかを適応的に調節することで、テキストのみから取得することが難しいグローバルな構造特性に対して、より安定かつ一貫性のある推論を可能にします。
挑戦的な数学的推論ベンチマークの実験は、FIGRが強いテキストのみのチェーン・オブ・シークレット・ベースラインより優れていることを示した。
特に、FIGRは、AIME 2025で13.12%、Beyond AIMEで11.00%のベースモデルを改善し、複雑な推論の安定性と信頼性を高める上で、図形誘導マルチモーダル推論の有効性を強調している。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。