論文の概要: More Images, More Problems? A Controlled Analysis of VLM Failure Modes
- arxiv url: http://arxiv.org/abs/2601.07812v1
- Date: Mon, 12 Jan 2026 18:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.757045
- Title: More Images, More Problems? A Controlled Analysis of VLM Failure Modes
- Title(参考訳): より多くの画像, もっと問題? VLM故障モードの制御解析
- Authors: Anurag Das, Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Bernt Schiele, Georgios Tzimiropoulos, Brais Martinez,
- Abstract要約: 大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
- 参考スコア(独自算出の注目度): 80.64323947730905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities, yet their proficiency in understanding and reasoning over multiple images remains largely unexplored. While existing benchmarks have initiated the evaluation of multi-image models, a comprehensive analysis of their core weaknesses and their causes is still lacking. In this work, we introduce MIMIC (Multi-Image Model Insights and Challenges), a new benchmark designed to rigorously evaluate the multi-image capabilities of LVLMs. Using MIMIC, we conduct a series of diagnostic experiments that reveal pervasive issues: LVLMs often fail to aggregate information across images and struggle to track or attend to multiple concepts simultaneously. To address these failures, we propose two novel complementary remedies. On the data side, we present a procedural data-generation strategy that composes single-image annotations into rich, targeted multi-image training examples. On the optimization side, we analyze layer-wise attention patterns and derive an attention-masking scheme tailored for multi-image inputs. Experiments substantially improved cross-image aggregation, while also enhancing performance on existing multi-image benchmarks, outperforming prior state of the art across tasks. Data and code will be made available at https://github.com/anurag-198/MIMIC.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
既存のベンチマークではマルチイメージモデルの評価が始まっているが、コアの弱点とその原因に関する包括的な分析はまだ不十分である。
本研究では,LVLMのマルチイメージ機能を評価するために,MIMIC (Multi-Image Model Insights and Challenges) を提案する。
LVLMは画像にまたがる情報を収集するのに失敗し、複数の概念を同時に追跡したり、参加したりするのに苦労することが多い。
これらの障害に対処するため、我々は2つの新しい補完的治療法を提案する。
データ側では、単一イメージアノテーションをリッチでターゲットとしたマルチイメージトレーニング例に構成する手続き型データ生成戦略を提案する。
最適化の面では、レイヤワイドの注意パターンを分析し、マルチイメージ入力に適したアテンション・マスク方式を導出する。
実験はクロスイメージアグリゲーションを大幅に改善し、既存のマルチイメージベンチマークのパフォーマンスも向上した。
データとコードはhttps://github.com/anurag-198/MIMICで公開される。
関連論文リスト
- Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models [50.51641024244313]
本稿では,複数の画像を扱う場合の視覚的情報処理について検討する。
そこで本研究では,新たなゼロショットプロンプト手法であるQG-CoC(QG-CoC)を提案する。
マルチイメージおよびシングルイメージベンチマークのための各種オープンソースおよびクローズドソースMLLMについて評価を行った。
論文 参考訳(メタデータ) (2025-11-05T05:49:48Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning [26.986638043619397]
マルチイメージ推論のための合成データ生成パイプラインであるSMiRを紹介する。
我々は160Kの合成トレーニングサンプルを作成し、クローズドソースソリューションに代わる費用対効果を提供する。
SMiR-Benchは200種類の多彩な例からなるマルチイメージ推論ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T10:21:21Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models [29.795942154703642]
本稿では,複数画像関係関連課題と,厳密にキュレートされた多粒度マルチイメージアソシエーションのベンチマークを提案する。
実験の結果,MMRAベンチマークでは,現在のマルチイメージLVLMは様々なサブタスクに対して異なる利点と欠点を示すことがわかった。
その結果,LVLMは画像の詳細を知覚する強力な能力を示し,複数の画像ヒンジにまたがる情報を関連付ける能力を高め,言語モデルコンポーネントの推論能力の向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-07-24T15:59:01Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。