論文の概要: Measuring Cross-Modal Synergy: A Benchmark for VLM Explainability
- arxiv url: http://arxiv.org/abs/2605.22168v1
- Date: Thu, 21 May 2026 08:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.167232
- Title: Measuring Cross-Modal Synergy: A Benchmark for VLM Explainability
- Title(参考訳): クロスモーダル・シナジーの測定: VLM Explainabilityのベンチマーク
- Authors: Joël Roman Ky, Salah Ghamizi, Maxime Cordy,
- Abstract要約: 視覚言語モデル(VLM)は複雑な視覚入力を意味空間にマッピングする。
本稿では、Shapley Interaction Indexに根ざしたスケーラブルな計量であるSynergistic Faithfulness(mathcalF_syn$)を紹介する。
- 参考スコア(独自算出の注目度): 16.886338830987462
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models (VLMs) map complex visual inputs to semantic spaces, but interpreting the cross-modal reasoning of VLMs currently relies on post-hoc explainers evaluated via unimodal perturbation metrics. We expose a limitation in this paradigm: because multimodal datasets contain language priors and modality biases, VLMs frequently exhibit cross-modal redundancy, allowing them to answer visual queries using text alone. Consequently, unimodal metrics penalize faithful explainers, triggering an evaluation collapse where visual and textual rankings fundamentally contradict each other. %(Kendall's $τ= -0.06$). To resolve this, we introduce Synergistic Faithfulness ($\mathcal{F}_{syn}$), a scalable metric rooted in the Shapley Interaction Index that strictly isolates the joint Harsanyi dividend between modalities, serving as a highly accurate surrogate ($ρ= 0.92$) while achieving a $24\times$ computational speedup. Evaluating 8 distinct XAI methods across 3 VLM architectures and 3 benchmark datasets, reveals that explainers proposed for VLMs heavily over-index on visual salience and significantly underperform adapted attention-based methods in capturing true cross-modal synergy. By decoupling visual plausibility from cross-modal faithfulness, this work provides a rigorous evaluation framework required to safely audit VLM reasoning in high-stakes deployments.
- Abstract(参考訳): VLM(Vision-Language Models)は複雑な視覚入力を意味空間にマッピングするが、VLMのクロスモーダル推論を解釈することは、現在、不定形摂動測定を用いて評価されたポストホック説明器に依存している。
マルチモーダルデータセットには言語先行とモダリティバイアスが含まれているため、VLMは多言語間の冗長性を頻繁に示し、テキストだけで視覚的なクエリに答えることができる。
その結果、単調なメトリクスは忠実な説明者を罰し、視覚的およびテキスト的ランキングが互いに根本的に矛盾する評価崩壊を引き起こす。
%(Kendall's $τ=-0.06$)であった。
これを解決するために、Synergistic Faithfulness(\mathcal{F}_{syn}$)を導入し、Shapley Interaction Index(英語版)に根ざしたスケーラブルな計量で、高精度なサロゲート(ρ=0.92$)として機能し、24\times$計算スピードアップを実現している。
3つのVLMアーキテクチャと3つのベンチマークデータセットにまたがる8つの異なるXAI手法を評価すると、VLMの提案した説明者は視覚的サリエンスを非常に過度にインデクシングし、真のクロスモーダル・シナジーを捉えるための適応された注意に基づく手法を著しく低パフォーマンスにしていることが明らかとなった。
クロスモーダルな忠実さから視覚的可視性を分離することにより、この研究は、高所でのVLM推論を安全に監査するために必要な厳密な評価フレームワークを提供する。
関連論文リスト
- MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models [70.34265674686516]
マルチモーダル埋め込みモデルは、テキスト、画像、ビデオ、オーディオなどの異種入力を共有意味空間にマッピングすることを目的としている。
本稿では,テキスト,画像,ビデオ,オーディオ,エージェント中心のシナリオにまたがる埋め込みを評価するベンチマークであるMMEB-V3を紹介する。
本研究は, 完全モダリティ埋め込みの系統的解析を行い, 3つの重要な知見を同定する。
論文 参考訳(メタデータ) (2026-04-25T14:15:05Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Unlocking Financial Insights: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos [11.550322270589952]
FASTER(Financial Advisory Summariser with Textual Embedded Relevant Image)は、最適化された簡潔な要約を生成するフレームワークである。
FASTERは、セマンティックな視覚的記述にBLIP、テキストパターンにOCR、話者ダイアリゼーションをBOS機能としてWhisperベースの書き起こしにBLIPを使用している。
A modified Direct Preference Optimization (DPO)-based loss function, equipped with BOS-specific fact-checking, ensure precision, Relevance, and factual consistency。
論文 参考訳(メタデータ) (2025-09-25T09:54:19Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks [2.033441577169909]
VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。
目に見えないデータに対する分散シフトに対する堅牢性は、安全なデプロイメントにとって重要な関心事です。
私たちは、現在の落とし穴を克服する3つの重要な要件を中心に、SURE-VQAと呼ばれる新しいフレームワークを紹介します。
論文 参考訳(メタデータ) (2024-11-29T13:22:52Z) - What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。
この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-24T05:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。