論文の概要: Caption This, Reason That: VLMs Caught in the Middle
- arxiv url: http://arxiv.org/abs/2505.21538v1
- Date: Sat, 24 May 2025 14:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.139617
- Title: Caption This, Reason That: VLMs Caught in the Middle
- Title(参考訳): 映画「VLM」、中西部で撮影中
- Authors: Zihan Weng, Lucas Gomez, Taylor Whittington Webb, Pouya Bashivan,
- Abstract要約: VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。
認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
- 参考スコア(独自算出の注目度): 3.4820139118440676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown remarkable progress in visual understanding in recent years. Yet, they still lag behind human capabilities in specific visual tasks such as counting or relational reasoning. To understand the underlying limitations, we adopt methodologies from cognitive science, analyzing VLM performance along core cognitive axes: Perception, Attention, and Memory. Using a suite of tasks targeting these abilities, we evaluate state-of-the-art VLMs, including GPT-4o. Our analysis reveals distinct cognitive profiles: while advanced models approach ceiling performance on some tasks (e.g. category identification), a significant gap persists, particularly in tasks requiring spatial understanding or selective attention. Investigating the source of these failures and potential methods for improvement, we employ a vision-text decoupling analysis, finding that models struggling with direct visual reasoning show marked improvement when reasoning over their own generated text captions. These experiments reveal a strong need for improved VLM Chain-of-Thought (CoT) abilities, even in models that consistently exceed human performance. Furthermore, we demonstrate the potential of targeted fine-tuning on composite visual reasoning tasks and show that fine-tuning smaller VLMs substantially improves core cognitive abilities. While this improvement does not translate to large enhancements on challenging, out-of-distribution benchmarks, we show broadly that VLM performance on our datasets strongly correlates with performance on these other benchmarks. Our work provides a detailed analysis of VLM cognitive strengths and weaknesses and identifies key bottlenecks in simultaneous perception and reasoning while also providing an effective and simple solution.
- Abstract(参考訳): VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。
しかし、カウントやリレーショナル推論といった特定の視覚的タスクでは、人間の能力に遅れがある。
基礎となる制約を理解するために,認知科学の方法論を採用し,認知軸に沿ったVLM性能(知覚,注意,記憶)を分析した。
これらの能力を対象とした一連のタスクを用いて,GPT-4oを含む最先端のVLMを評価する。
高度なモデルはいくつかのタスク(例えばカテゴリ識別)において天井性能にアプローチするが、特に空間的理解や選択的注意を必要とするタスクにおいて、大きなギャップは持続する。
これらの失敗の原因と潜在的な改善方法について検討し、視覚テキストデカップリング分析を用いて、直接的視覚的推論に苦慮したモデルが、独自のテキストキャプションを推論する際に顕著な改善を示した。
これらの実験は、人間の性能を常に上回るモデルであっても、改良されたVLMChain-of-Thought(CoT)能力の必要性を強く示している。
さらに、複合視覚推論タスクにおいて、標的となる微調整の可能性を示し、細調整された小さなVLMが、コア認知能力を大幅に向上することを示す。
この改善は、挑戦的で配布外のベンチマークに対する大きな改善にはならないが、我々のデータセットでのVLMパフォーマンスは他のベンチマークのパフォーマンスと強く相関していることが広く示されている。
我々の研究は、VLMの認知力と弱点を詳細に分析し、同時に知覚と推論において重要なボトルネックを特定しながら、効果的で簡単なソリューションを提供する。
関連論文リスト
- VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。
VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。
GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。