論文の概要: Diagnosing Visual Reasoning: Challenges, Insights, and a Path Forward
- arxiv url: http://arxiv.org/abs/2510.20696v1
- Date: Thu, 23 Oct 2025 16:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.325758
- Title: Diagnosing Visual Reasoning: Challenges, Insights, and a Path Forward
- Title(参考訳): ビジュアル推論の診断 - 課題、洞察、道のり
- Authors: Jing Bi, Guangyu Sun, Ali Vosoughi, Chen Chen, Chenliang Xu,
- Abstract要約: 視覚的およびテキスト的推論を統合するマルチモーダル大言語モデル(MLLM)は、チェーン・オブ・シント(CoT)を活用する
本稿では,3段階評価フレームワークを用いて,最先端の視覚言語モデルの体系的診断を行う。
- 参考スコア(独自算出の注目度): 34.6039204639019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) that integrate visual and textual reasoning leverage chain-of-thought (CoT) prompting to tackle complex visual tasks, yet continue to exhibit visual hallucinations and an over-reliance on textual priors. We present a systematic diagnosis of state-of-the-art vision-language models using a three-stage evaluation framework, uncovering key failure modes. To address these, we propose an agent-based architecture that combines LLM reasoning with lightweight visual modules, enabling fine-grained analysis and iterative refinement of reasoning chains. Our results highlight future visual reasoning models should focus on integrating a broader set of specialized tools for analyzing visual content. Our system achieves significant gains (+10.3 on MMMU, +6.0 on MathVista over a 7B baseline), matching or surpassing much larger models. We will release our framework and evaluation suite to facilitate future research.
- Abstract(参考訳): 視覚的およびテキスト的推論を統合するマルチモーダルな大規模言語モデル(MLLM)は、複雑な視覚的タスクに取り組むためにチェーン・オブ・シント(CoT)を活用するが、視覚的幻覚とテキスト的先行への過度な依存は継続する。
本稿では,3段階評価フレームワークを用いた最先端の視覚言語モデルの系統診断を行い,重要な故障モードを明らかにする。
そこで本稿では,LLM推論と軽量視覚モジュールを組み合わせたエージェントベースアーキテクチャを提案する。
今後のビジュアル推論モデルでは、視覚コンテンツを分析するための専門的なツールセットの統合に重点を置くべきである。
MMMUでは+10.3、MathVistaでは+6.0で7Bベースラインを上回り、より大きなモデルにマッチするか、あるいは超えている。
今後の研究を促進するためのフレームワークと評価スイートをリリースする。
関連論文リスト
- Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。
われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。
本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文 参考訳(メタデータ) (2025-05-08T20:04:27Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。