論文の概要: MultiSHAP: A Shapley-Based Framework for Explaining Cross-Modal Interactions in Multimodal AI Models
- arxiv url: http://arxiv.org/abs/2508.00576v1
- Date: Fri, 01 Aug 2025 12:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.871552
- Title: MultiSHAP: A Shapley-Based Framework for Explaining Cross-Modal Interactions in Multimodal AI Models
- Title(参考訳): MultiSHAP: マルチモーダルAIモデルにおけるクロスモーダルインタラクションを説明するためのシェープベースフレームワーク
- Authors: Zhanliang Wang, Kai Wang,
- Abstract要約: マルチモーダルAIモデルは、視覚や言語など、複数のモーダルからの情報の統合を必要とするタスクにおいて、目覚ましいパフォーマンスを達成した。
マルチモーダルAIモデルにおけるクロスモーダルインタラクションを説明するには、依然として大きな課題である。
- 参考スコア(独自算出の注目度): 5.011371514152517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal AI models have achieved impressive performance in tasks that require integrating information from multiple modalities, such as vision and language. However, their "black-box" nature poses a major barrier to deployment in high-stakes applications where interpretability and trustworthiness are essential. How to explain cross-modal interactions in multimodal AI models remains a major challenge. While existing model explanation methods, such as attention map and Grad-CAM, offer coarse insights into cross-modal relationships, they cannot precisely quantify the synergistic effects between modalities, and are limited to open-source models with accessible internal weights. Here we introduce MultiSHAP, a model-agnostic interpretability framework that leverages the Shapley Interaction Index to attribute multimodal predictions to pairwise interactions between fine-grained visual and textual elements (such as image patches and text tokens), while being applicable to both open- and closed-source models. Our approach provides: (1) instance-level explanations that reveal synergistic and suppressive cross-modal effects for individual samples - "why the model makes a specific prediction on this input", and (2) dataset-level explanation that uncovers generalizable interaction patterns across samples - "how the model integrates information across modalities". Experiments on public multimodal benchmarks confirm that MultiSHAP faithfully captures cross-modal reasoning mechanisms, while real-world case studies demonstrate its practical utility. Our framework is extensible beyond two modalities, offering a general solution for interpreting complex multimodal AI models.
- Abstract(参考訳): マルチモーダルAIモデルは、視覚や言語など、複数のモーダルからの情報の統合を必要とするタスクにおいて、目覚ましいパフォーマンスを達成した。
しかしながら、その“ブラックボックス”の性質は、解釈可能性と信頼性が不可欠であるハイステークなアプリケーションにおいて、デプロイメントにとって大きな障壁となる。
マルチモーダルAIモデルにおけるクロスモーダルなインタラクションを説明するには、依然として大きな課題である。
既存のモデル説明手法、例えばアテンションマップやGrad-CAMは、モーダル間の関係に関する粗い洞察を提供するが、モダリティ間の相乗効果を正確に定量化することはできず、アクセス可能な内部重みを持つオープンソースモデルに限られる。
ここでは、Shapley Interaction Indexを利用したモデル非依存の解釈可能性フレームワークであるMultiSHAPを紹介し、オープンソースモデルとクローズドソースモデルの両方に適用できるとともに、マルチモーダル予測を、きめ細かいビジュアル要素とテキスト要素(画像パッチやテキストトークンなど)間のペアの相互作用に属性付けする。
このアプローチは,(1) 個々のサンプルに対して相乗的かつ抑制的な相互モーダル効果を明らかにするインスタンスレベルの説明 – "なぜモデルがこの入力に対して特定の予測を行うのか" と,(2) サンプル間の一般化可能な相互作用パターンを明らかにするデータセットレベルの説明 – "モデルがモジュール間情報をどのように統合するか" を提供する。
公開マルチモーダルベンチマークの実験では、MultiSHAPはクロスモーダル推論機構を忠実に捉え、実世界のケーススタディはその実用性を実証している。
我々のフレームワークは2つのモダリティを超えて拡張可能であり、複雑なマルチモーダルAIモデルを解釈するための一般的なソリューションを提供する。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - M2Lens: Visualizing and Explaining Multimodal Models for Sentiment
Analysis [28.958168542624062]
感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。
M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。
論文 参考訳(メタデータ) (2021-07-17T15:54:27Z) - Does my multimodal model learn cross-modal interactions? It's harder to
tell than you might think! [26.215781778606168]
クロスモーダルモデリングは、視覚的質問応答のようなマルチモーダルタスクにおいて不可欠である。
本稿では,与えられたタスク上でのモデル間の相互作用によって性能が向上するか否かを分離する,新たな診断ツールである経験的多モード付加関数投影(EMAP)を提案する。
7つの画像+テキスト分類タスク(それぞれに新しい最先端のベンチマークを設定した)に対して、多くの場合、モーダル間相互作用を削除することは、パフォーマンスの劣化をほとんど、あるいは全く起こさない。
論文 参考訳(メタデータ) (2020-10-13T17:45:28Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。