論文の概要: Figure It Out: Improve the Frontier of Reasoning with Executable Visual States
- arxiv url: http://arxiv.org/abs/2512.24297v2
- Date: Tue, 06 Jan 2026 13:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.352877
- Title: Figure It Out: Improve the Frontier of Reasoning with Executable Visual States
- Title(参考訳): 図1:実行可能なビジュアルステートによる推論のフロンティアを改善する
- Authors: Meiqi Chen, Fandong Meng, Jie Zhou,
- Abstract要約: 複雑な推論問題はしばしば、テキストに明示的にエンコードされていない暗黙の空間的および幾何学的関係を含む。
FIGRを導入し、エンドツーエンドの強化学習を通じて、実行可能な視覚構成を多ターン推論に統合する。
8つの挑戦的な数学ベンチマークの実験により、FIGRは強いテキストのみのチェーン・オブ・シークレット・ベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 53.77871196174248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex reasoning problems often involve implicit spatial and geometric relationships that are not explicitly encoded in text. While recent reasoning models perform well across many domains, purely text-based reasoning struggles to capture structural constraints in complex settings. In this paper, we introduce FIGR, which integrates executable visual construction into multi-turn reasoning via end-to-end reinforcement learning. Rather than relying solely on textual chains of thought, FIGR externalizes intermediate hypotheses by generating executable code that constructs diagrams within the reasoning loop. An adaptive reward mechanism selectively regulates when visual construction is invoked, enabling more consistent reasoning over latent global properties that are difficult to infer from text alone. Experiments on eight challenging mathematical benchmarks demonstrate that FIGR outperforms strong text-only chain-of-thought baselines, improving the base model by 13.12% on AIME 2025 and 11.00% on BeyondAIME. These results highlight the effectiveness of precise, controllable figure construction of FIGR in enhancing complex reasoning ability.
- Abstract(参考訳): 複雑な推論問題はしばしば、テキストに明示的にエンコードされていない暗黙の空間的および幾何学的関係を含む。
最近の推論モデルは、多くのドメインでうまく機能するが、純粋にテキストベースの推論は複雑な設定で構造的制約を捉えるのに苦労する。
本稿では、エンドツーエンドの強化学習による多ターン推論に実行可能な視覚構造を統合するFIGRを提案する。
FIGRは思考のテキスト連鎖にのみ依存するのではなく、推論ループ内でダイアグラムを構成する実行可能なコードを生成することによって中間仮説を外部化する。
適応的な報酬機構は、視覚的構成が呼び出された時に選択的に規制し、テキストのみから推測することが難しい潜在グローバルプロパティに対するより一貫した推論を可能にする。
8つの挑戦的な数学ベンチマークの実験では、FIGRは強力なテキストのみのチェーン・オブ・ソート・ベースラインを上回り、AIME 2025では13.12%、Beyond AIMEでは11.00%改善している。
これらの結果は、複雑な推論能力を高めるためのFIGRの精密かつ制御可能なフィギュア構築の有効性を浮き彫りにした。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。