論文の概要: Quantifying Modality Contributions via Disentangling Multimodal Representations
- arxiv url: http://arxiv.org/abs/2511.19470v1
- Date: Sat, 22 Nov 2025 05:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.011634
- Title: Quantifying Modality Contributions via Disentangling Multimodal Representations
- Title(参考訳): マルチモーダル表現の分散によるモダリティ寄与の定量化
- Authors: Padegal Amit, Omkar Mahesh Kashyap, Namitha Rayasam, Nidhi Shekhar, Surabhi Narayan,
- Abstract要約: マルチモーダルモデルにおけるモダリティコントリビューションの定量化は、既存のアプローチがコントリビューション自体の概念を強調しているため、依然として課題である。
内部埋め込みにおける予測情報をユニークで冗長でシナジスティックなコンポーネントに分解することで、モダリティの寄与を定量化する部分情報分解(PID)に基づくフレームワークを提案する。
これは、結果ベースのメトリクスよりも明確で解釈可能な洞察を提供する、マルチモーダルな振る舞いの原則的、表現レベルのビューを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying modality contributions in multimodal models remains a challenge, as existing approaches conflate the notion of contribution itself. Prior work relies on accuracy-based approaches, interpreting performance drops after removing a modality as indicative of its influence. However, such outcome-driven metrics fail to distinguish whether a modality is inherently informative or whether its value arises only through interaction with other modalities. This distinction is particularly important in cross-attention architectures, where modalities influence each other's representations. In this work, we propose a framework based on Partial Information Decomposition (PID) that quantifies modality contributions by decomposing predictive information in internal embeddings into unique, redundant, and synergistic components. To enable scalable, inference-only analysis, we develop an algorithm based on the Iterative Proportional Fitting Procedure (IPFP) that computes layer and dataset-level contributions without retraining. This provides a principled, representation-level view of multimodal behavior, offering clearer and more interpretable insights than outcome-based metrics.
- Abstract(参考訳): マルチモーダルモデルにおけるモダリティコントリビューションの定量化は、既存のアプローチがコントリビューション自体の概念を強調しているため、依然として課題である。
これまでの作業は精度に基づくアプローチに依存しており、その影響の指標としてモダリティを除去した後のパフォーマンス低下を解釈する。
しかし、このような結果駆動のメトリクスは、モダリティが本質的に有益であるか、あるいはその値が他のモダリティとの相互作用によってのみ生じるのかを区別することができない。
この区別は、モダリティが互いの表現に影響を与えるクロスアテンションアーキテクチャにおいて特に重要である。
本研究では,内部埋め込みにおける予測情報をユニークな,冗長な,シナジスティックなコンポーネントに分解することで,モダリティの寄与を定量化する部分情報分解(PID)に基づくフレームワークを提案する。
拡張性のある推論のみの分析を可能にするために,階層やデータセットレベルのコントリビューションを再トレーニングせずに計算するIterative Proportional Fitting Procedure (IPFP) に基づくアルゴリズムを開発した。
これは、結果ベースのメトリクスよりも明確で解釈可能な洞察を提供する、マルチモーダルな振る舞いの原則的、表現レベルのビューを提供する。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。
1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。
本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文 参考訳(メタデータ) (2025-05-10T12:58:15Z) - Multi-Modality Collaborative Learning for Sentiment Analysis [12.066757428026163]
マルチモーダル感情分析(MSA)は、視覚、音声、テキストのモダリティを統合することで、ビデオ中の個人の感情状態を特定する。
既存の手法の進歩にもかかわらず、本質的なモダリティの不均一性は、モダリティを越えて対話的な感情の特徴を効果的に捉えることを制限している。
モーダル・コラボレーティブ・ラーニング(Multi-Modality Collaborative Learning)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-21T12:06:21Z) - Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning [21.127950337002776]
マルチモーダル・センティメント・アナリティクス(MSA)は、複数のモーダルを通して人間の感情を理解し、認識することを目的とした重要な研究分野である。
本稿では,不確実なモダリティの下でのタスクのための階層表現学習フレームワーク(HRLF)を提案する。
HRLFは、不確実なモダリティ欠失例において、MSA性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-11-05T04:04:41Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Out-of-Distribution Detection via Deep Multi-Comprehension Ensemble [11.542472900306745]
マルチComprehension (MC) Ensemble は,OOD (Out-of-Distribution) 特徴表現を拡大するための戦略として提案されている。
OOD検出におけるMC Ensemble戦略の優れた性能を示す実験結果を得た。
これにより,提案手法がトレーニング分布外のインスタンスを検出できるモデルの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-24T18:43:04Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Loss Bounds for Approximate Influence-Based Abstraction [81.13024471616417]
影響に基づく抽象化は、システムの残りの部分が与える「影響」とともに、局所的なサブプロブレムをモデル化することでレバレッジを得ることを目的としている。
本稿では,理論的観点から,そのような手法の性能について考察する。
交叉エントロピーで訓練されたニューラルネットワークは、近似的な影響表現を学習するのに適していることを示す。
論文 参考訳(メタデータ) (2020-11-03T15:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。