論文の概要: VisTIRA: Closing the Image-Text Modality Gap in Visual Math Reasoning via Structured Tool Integration
- arxiv url: http://arxiv.org/abs/2601.14440v1
- Date: Tue, 20 Jan 2026 19:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.141015
- Title: VisTIRA: Closing the Image-Text Modality Gap in Visual Math Reasoning via Structured Tool Integration
- Title(参考訳): VisTIRA: 構造化ツール統合による視覚数学推論における画像テキストモダリティギャップのクローズ
- Authors: Saeed Khaki, Ashudeep Singh, Nima Safaei, Kamal Ginotra,
- Abstract要約: 視覚言語モデル(VLM)は、同じ問題がテキストではなく画像として提示される場合、数学的推論においてテキストのみの言語モデルより遅れる。
本稿では、与えられた数学問題を(画像として)自然言語の有理数に分解することで、構造化された問題解決を可能にするツール統合推論フレームワークであるVisTIRAを紹介する。
ツール統合監視により画像ベース推論が向上し,OCRグラウンド化により,より小さなモデルのギャップをさらに狭めることができることを示す。
- 参考スコア(独自算出の注目度): 2.7403985180660784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) lag behind text-only language models on mathematical reasoning when the same problems are presented as images rather than text. We empirically characterize this as a modality gap: the same question in text form yields markedly higher accuracy than its visually typeset counterpart, due to compounded failures in reading dense formulas, layout, and mixed symbolic-diagrammatic context. First, we introduce VisTIRA (Vision and Tool-Integrated Reasoning Agent), a tool-integrated reasoning framework that enables structured problem solving by iteratively decomposing a given math problem (as an image) into natural language rationales and executable Python steps to determine the final answer. Second, we build a framework to measure and improve visual math reasoning: a LaTeX-based pipeline that converts chain-of-thought math corpora (e.g., NuminaMath) into challenging image counterparts, and a large set of synthetic tool-use trajectories derived from a real-world, homework-style image dataset (called SnapAsk) for fine-tuning VLMs. Our experiments show that tool-integrated supervision improves image-based reasoning, and OCR grounding can further narrow the gap for smaller models, although its benefit diminishes at scale. These findings highlight that modality gap severity inversely correlates with model size, and that structured reasoning and OCR-based grounding are complementary strategies for advancing visual mathematical reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、同じ問題がテキストではなく画像として提示される場合、数学的推論においてテキストのみの言語モデルより遅れる。
テキスト形式の同じ質問は、密接な公式、レイアウト、混合記号-文法的文脈の複雑な失敗により、視覚的にタイプセットされた質問よりも著しく精度が高い。
まず、与えられた数学問題(画像として)を自然言語の有理数と実行可能なPythonステップに反復分解して最終解を決定することで、構造化された問題解決を可能にするツール統合推論フレームワークであるVisTIRA(Vision and Tool-Integrated Reasoning Agent)を紹介する。
第二に、視覚数学の推論を計測し改善するためのフレームワークを構築します。LTeXベースのパイプラインは、チェーン・オブ・シンクタンク(例えばNuminaMath)を挑戦的な画像に変換します。
実験の結果,ツール統合監視により画像ベース推論が向上し,OCRグラウンディングによりより小さなモデルのギャップが狭まるが,そのメリットは小さくなることがわかった。
これらの結果から, モダリティギャップ重大度はモデルサイズと逆相関し, 構造的推論とOCRに基づく基底化が視覚数学的推論を推し進めるための相補的戦略であることが示唆された。
関連論文リスト
- When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning [58.776297011268845]
本稿では,数学の本質的なVCoT機能を備えた大規模マルチモーダルモデルを実現するための包括的フレームワークを提案する。
我々のモデルであるBAGEL-canvasは、強力なLMMベースラインよりも86%の相対的な改善を実現しています。
我々の研究は、LMMにおける複雑なヒューマンライクな視覚支援推論をアンロックするためのツールキット・フレームワーク、データセット、ベンチマークを完全提供する。
論文 参考訳(メタデータ) (2025-10-16T17:58:58Z) - CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images [69.93976232543066]
本稿では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。
そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを構築した。
我々のモデルは,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:55Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights [26.85150689408895]
既存のマルチモーダルな数学的モデルでは視覚情報を最小限に活用できることを示す。
これは、意図せずモデルに回答を誘導するテキスト情報と回答オプションの優位性に起因している。
先行モデルをテストする際、微妙な視覚的差異を検知できないことは、現在の視覚知覚能力の限界を示唆している。
論文 参考訳(メタデータ) (2025-03-06T07:29:33Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - Chain of Images for Intuitively Reasoning [23.692458865558486]
本稿では,複雑な言語推論問題を単純なパターン認識に変換するために,画像の連鎖(CoI)アプローチを提案する。
我々は、画像が直感的に問題解決を支援する15の異なる領域を含むCoI評価データセットを開発した。
CoI推論を支援するために,言語命令に基づいて厳密に画像を生成するシンボリック・マルチモーダル・大規模言語モデル(SyMLLM)を導入する。
論文 参考訳(メタデータ) (2023-11-09T11:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。