論文の概要: Towards Understanding Modality Interaction in Multimodal Language Models via Partial Information Decomposition
- arxiv url: http://arxiv.org/abs/2606.00959v1
- Date: Sun, 31 May 2026 02:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.001565
- Title: Towards Understanding Modality Interaction in Multimodal Language Models via Partial Information Decomposition
- Title(参考訳): 部分的情報分解による多モーダル言語モデルにおけるモダリティ相互作用の理解に向けて
- Authors: Wanlong Fang, Tianle Zhang, Wen Tao, Alvin Chan,
- Abstract要約: 感覚と言語入力の独特、冗長、相乗的貢献を分離する決定レベルフレームワークとして、部分情報分解(PID)を導入する。
我々は、音声情報ゲインを分解する制御変数として言語を扱うSensory PIDを用いて、PIDをトリモーダルシステムに拡張する。
- 参考スコア(独自算出の注目度): 13.945344883914318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding modality interaction in multimodal large language models (MLLMs) is central to reliable deployment. We introduce Partial Information Decomposition (PID) as a decision-level framework that separates unique, redundant, and synergistic contributions of sensory and linguistic inputs, beyond representation alignment and outcome-based evaluation. Across vision--language benchmarks, PID reveals recurring modality-use profiles: reasoning and grounding-oriented tasks tend to exhibit high synergy, whereas expert and knowledge-oriented tasks show stronger language-unique reliance. These profiles generalize across model families and predict sensitivity to modality-level interventions. We further extend PID to tri-modal systems with Sensory PID, treating language as a control variable to decompose video--audio information gain. Applied to omni-modal models, Sensory PID reveals a sensory synergy bottleneck dominated by visual information even on audio--visual fusion tasks. Finally, PID-guided reweighting provides initial evidence for improving multimodal reasoning and grounding performance.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)におけるモダリティの相互作用を理解することは、信頼性の高いデプロイメントの中心である。
本稿では,表現アライメントや結果に基づく評価を超えて,感覚や言語入力の独特で冗長で相乗的貢献を分離する決定レベルフレームワークとして部分情報分解(PID)を導入する。
推論と接地指向のタスクは高い相乗効果を示す傾向があるが、専門家や知識指向のタスクはより強い言語固有性を示す。
これらのプロファイルはモデルファミリにまたがって一般化され、モダリティレベルの介入に対する感受性を予測する。
我々はさらに、音声情報ゲインを分解する制御変数として言語を扱いながら、Sensory PIDを用いたトリモーダルシステムにPIDを拡張した。
オームニモーダルモデルに適用したSensory PIDは、音声-視覚融合タスクでも視覚情報に支配される感覚相乗効果のボトルネックを明らかにする。
最後に、PID誘導再重み付けは、マルチモーダル推論とグラウンドリング性能を改善するための最初の証拠となる。
関連論文リスト
- Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time [9.870369982132678]
マルチモーダルな大規模言語モデル(MLLM)は、AIの展望に革命をもたらした。
これらのモデルは、しばしば幻覚に悩まされ、提供された知覚入力から分岐する出力を生成する。
マルチモーダルグラウンド化を促進するために,Learning Inference-time Modality Enhancement (LIME)を提案する。
論文 参考訳(メタデータ) (2026-05-03T07:58:02Z) - Source-Modality Monitoring in Vision-Language Models [16.990140746029553]
我々は、より一般的なバインディング問題の例として、ソースモダリティモニタリング(source-modality monitoring)を考える。
統語的信号と意味的信号はどちらも重要な役割を担っているが、モーダルが分布的に非常に異なる場合、後者は前者を上回る傾向にある。
論文 参考訳(メタデータ) (2026-04-23T19:49:36Z) - Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis [41.29318462528406]
本稿では,多目的表現学習フレームワークDentangled-Language-Focused (DLF)を提案する。
このモジュールは、モダリティ共有とモダリティ固有情報を分離するための機能障害モジュールを組み込んでいる。
相補的モダリティ固有情報を活用することで言語表現を強化するために,Language-Focused Attractor (LFA) がさらに開発された。
論文 参考訳(メタデータ) (2024-12-16T10:03:44Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。