論文の概要: AMVICC: A Novel Benchmark for Cross-Modal Failure Mode Profiling for VLMs and IGMs
- arxiv url: http://arxiv.org/abs/2601.17037v1
- Date: Tue, 20 Jan 2026 00:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.01333
- Title: AMVICC: A Novel Benchmark for Cross-Modal Failure Mode Profiling for VLMs and IGMs
- Title(参考訳): AMVICC: VLMとIGGのためのクロスモーダル障害モードプロファイリングのための新しいベンチマーク
- Authors: Aahana Basappa, Pranay Goel, Anusri Karra, Anish Karra, Asa Gilmore, Kevin Zhu,
- Abstract要約: マルチモーダル大言語モデル (MLLM) と画像生成モデル (IGM) について検討した。
我々は、画像からテキストまでのタスクとテキストから画像までのタスクの障害モードを比較するための新しいベンチマークを作成しました。
この結果から,障害モードはモデルとモダリティの間で共有されることが多いが,特定の障害はモデル固有かつモダリティ固有であることがわかった。
- 参考スコア(独自算出の注目度): 2.357397994148727
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We investigated visual reasoning limitations of both multimodal large language models (MLLMs) and image generation models (IGMs) by creating a novel benchmark to systematically compare failure modes across image-to-text and text-to-image tasks, enabling cross-modal evaluation of visual understanding. Despite rapid growth in machine learning, vision language models (VLMs) still fail to understand or generate basic visual concepts such as object orientation, quantity, or spatial relationships, which highlighted gaps in elementary visual reasoning. By adapting MMVP benchmark questions into explicit and implicit prompts, we create \textit{AMVICC}, a novel benchmark for profiling failure modes across various modalities. After testing 11 MLLMs and 3 IGMs in nine categories of visual reasoning, our results show that failure modes are often shared between models and modalities, but certain failures are model-specific and modality-specific, and this can potentially be attributed to various factors. IGMs consistently struggled to manipulate specific visual components in response to prompts, especially in explicit prompts, suggesting poor control over fine-grained visual attributes. Our findings apply most directly to the evaluation of existing state-of-the-art models on structured visual reasoning tasks. This work lays the foundation for future cross-modal alignment studies, offering a framework to probe whether generation and interpretation failures stem from shared limitations to guide future improvements in unified vision-language modeling.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) と画像生成モデル (IGM) の双方の視覚的推論限界について,画像・テキスト・テキスト・画像間の障害モードを体系的に比較する新たなベンチマークを作成し,視覚的理解の相互モーダル評価を可能にする。
機械学習の急速な成長にもかかわらず、視覚言語モデル(VLM)は、基本的な視覚的推論のギャップを浮き彫りにした、オブジェクト指向や量、空間的関係といった基本的な視覚的概念を理解したり生成することができない。
MMVPベンチマークの問題を明示的で暗黙的なプロンプトに適応させることで、さまざまなモードで障害モードをプロファイリングするための新しいベンチマークである「textit{AMVICC}」を作成する。
11個のMLLMと3個のIGMを視覚的推論の9つのカテゴリでテストした結果、失敗モードはモデルとモダリティの間で共有されることが多いが、特定の失敗はモデル固有かつモダリティ固有であり、様々な要因に起因する可能性がある。
IGMは、特に明示的なプロンプトにおいて、特定の視覚成分を操作するのに一貫して苦労し、きめ細かい視覚特性の制御が不十分であったことを示唆した。
本研究は、構造化視覚推論タスクにおける既存の最先端モデルの評価に最も直接的に適用する。
この研究は、将来のクロスモーダルアライメント研究の基礎を築き、生成と解釈の失敗が共有制限に由来するかどうかを調査するためのフレームワークを提供し、統合された視覚言語モデリングにおける将来の改善を導く。
関連論文リスト
- More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Coordinated Robustness Evaluation Framework for Vision-Language Models [4.0196072781228285]
我々は、画像とテキストの両方を入力とし、共同表現を生成する一般的な代理モデルを訓練する。
この協調攻撃戦略は、視覚的質問と回答と視覚的推論データセットに基づいて評価される。
論文 参考訳(メタデータ) (2025-06-05T08:09:05Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities [19.923665989164387]
MuCRはMultimodal Causal Reasoningベンチマークであり、合成シアム画像とテキストペアを利用してMLLMに挑戦する。
実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。
本稿では,視覚的手がかりをより強調するVcCoT戦略を提案し,その効果がマルチモーダル因果推論の強化に有効であることを確認した。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。