論文の概要: M$^3$-ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering
- arxiv url: http://arxiv.org/abs/2603.08369v1
- Date: Mon, 09 Mar 2026 13:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.090808
- Title: M$^3$-ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering
- Title(参考訳): M$^3$-ACE:マルチエージェントコンテキスト工学によるマルチモーダル数学推論における視覚知覚の定式化
- Authors: Peijin Xie, Zhen Xu, Bingquan Liu, Baoxun Wang,
- Abstract要約: M3-ACE(M3-ACE)は、数学の推論において視覚的知覚を正すために設計された多言語コンテキストエンジニアリングフレームワークである。
提案手法は,MathVisionベンチマークで89.1の新たな結果を確立し,他の関連するデータセットに対して一貫した改善を実現する。
- 参考スコア(独自算出の注目度): 10.491266031106774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models have recently shown promising progress in visual mathematical reasoning. However, their performance is often limited by a critical yet underexplored bottleneck: inaccurate visual perception. Through systematic analysis, we find that the most failures originate from incorrect or incomplete visual evidence extraction rather than deficiencies in reasoning capability. Moreover, models tend to remain overly confident in their initial perceptions, making standard strategies such as prompt engineering, multi-round self-reflection, or posterior guidance insufficient to reliably correct errors. To address this limitation, we propose M3-ACE, a multi-agentic context engineering framework designed to rectify visual perception in multimodal math reasoning. Instead of directly aggregating final answers, our approach decouples perception and reasoning by dynamically maintaining a shared context centered on visual evidence lists. Multiple agents collaboratively contribute complementary observations, enabling the system to expose inconsistencies and recover missing perceptual information. To support stable multi-turn collaboration, we further introduce two lightweight tools: a Summary Tool that organizes evidence from different agents into consistent, complementary, and conflicting components, and a Refine Tool that filters unreliable samples and guides iterative correction. Extensive experiments demonstrate that M3-ACE substantially improves visual mathematical reasoning performance across multiple benchmarks. Our method establishes new state-of-the-art results 89.1 on the MathVision benchmark and achieves consistent improvements on other related datasets, including MathVista and MathVerse. These results highlight the importance of perception-centric multi-agent collaboration for advancing multimodal reasoning systems.
- Abstract(参考訳): マルチモーダルな大言語モデルは近年,視覚数学的推論の進歩を期待している。
しかし、それらのパフォーマンスは、しばしば批判的だが未発見のボトルネックによって制限される:不正確な視覚的知覚。
系統的な分析により、最も失敗する原因は推論能力の欠陥ではなく、不正確または不完全な視覚的証拠抽出であることがわかった。
さらに、モデルは初期の認識に過度に自信を保ち、迅速なエンジニアリング、複数ラウンドの自己回帰、あるいはエラーを確実に修正するための後続のガイダンスのような標準的な戦略を作る傾向にある。
この制限に対処するため,マルチモーダル数学推論における視覚知覚の補正を目的としたマルチエージェントコンテキストエンジニアリングフレームワークであるM3-ACEを提案する。
最終回答を直接集約するのではなく、視覚的エビデンスリストを中心とした共有コンテキストを動的に維持することにより、認識と推論を分離する。
複数のエージェントが相補的な観察に協力し、不整合を露呈し、欠落した知覚情報を回復することを可能にする。
安定したマルチターンコラボレーションをサポートするために,さまざまなエージェントからの証拠を一貫性のある補完的かつ矛盾するコンポーネントに整理するSlide Toolと,信頼性の低いサンプルをフィルタリングして反復修正をガイドするRefine Toolという,2つの軽量ツールを導入する。
大規模な実験により、M3-ACEは複数のベンチマークで視覚数学的推論性能を大幅に改善することが示された。
提案手法は,MathVisionベンチマークで89.1の新たな結果を確立し,MathVistaやMathVerseなど他の関連するデータセットに対して一貫した改善を実現する。
これらの結果は,マルチモーダル推論システムにおける知覚中心型マルチエージェント協調の重要性を強調した。
関連論文リスト
- Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm [82.57296908195654]
MMR(Multimodal Mathematical Reasoning)は、テキストと視覚の両方のモダリティを含む数学的問題を解く能力に注目が集まっている。
現在のモデルは、実世界の視覚数学のタスクにおいて大きな課題に直面している。
論文 参考訳(メタデータ) (2026-03-09T12:11:00Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.7657839292775]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。
ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。
その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-12-04T18:59:52Z) - What MLLMs Learn about When they Learn about Multimodal Reasoning: Perception, Reasoning, or their Integration? [46.836858357488296]
マルチモーダル推論モデルは、最近、オリンピアドレベルの幾何学のような挑戦的な領域を約束している。
マルチモーダル推論のサブスキルを切り離すために設計されたベンチマークであるMathLensを紹介する。
論文 参考訳(メタデータ) (2025-10-02T06:58:29Z) - Revisiting Visual Understanding in Multimodal Reasoning through a Lens of Image Perturbation [38.740533834549716]
言語のみのモデルでは、生の視覚入力を消費するMLLMと同等またはそれ以上の性能が得られることを示す。
そこで我々は,アルゴリズムの修正を必要とせず,知覚の堅牢性を高めるシンプルな視覚摂動フレームワークを提案する。
本研究は,マルチモーダル数学的推論における視覚摂動の重要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-11T13:39:46Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。