論文の概要: Information Router for Mitigating Modality Dominance in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.16264v1
- Date: Fri, 17 Apr 2026 17:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.02633
- Title: Information Router for Mitigating Modality Dominance in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるモダリティ支配の緩和のための情報ルータ
- Authors: Seulgi Kim, Mohit Prabhushankar, Ghassan AlRegib,
- Abstract要約: textscMoIRは、情報の少ないトークンを特定し、より強力なモダリティから補完的な情報をルーティングする。
我々は、複数のモデルバックボーンにまたがる3つの広く使われているマルチモーダルベンチマークに対して、textscMoIRを評価した。
- 参考スコア(独自算出の注目度): 13.535958146876787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language models (VLMs) have demonstrated strong performance across a wide range of benchmarks, yet they often suffer from modality dominance, where predictions rely disproportionately on a single modality. Prior approaches primarily address this issue by steering model's attention allocation, implicitly assuming that all modalities provide sufficient information. However, attention only determines where the model focuses, and cannot enrich information that is missing or ambiguous. In the real world, input modalities often differ in information density and their signal-to-noise ratios. In such cases, simply adjusting model's attention does not resolve the underlying lack of information. In this paper, we propose \textsc{MoIR}: \textit{Multi-modal Information Router}, an information-level fusion method that explicitly reduces information disparity prior to fusion. \textsc{MoIR} identifies less informative tokens and routes complementary information from a stronger modality, constructing information-dense token representations before they are processed by a large language model. By modifying information availability, \textsc{MoIR} enables reliable shifts in modality dominance, even when one modality is degraded. We evaluate \textsc{MoIR} on three widely used multi-modal benchmarks across multiple model backbones. Experimental results show that \textsc{MoIR} consistently demonstrates more balanced modality contribution, and improves robustness and downstream performance, particularly even under modality degradation. These findings demonstrate that explicitly modifying cross-modal information is an effective and complementary strategy for mitigating modality dominance in multi-modal reasoning models.
- Abstract(参考訳): 視覚言語モデル(VLM)は、幅広いベンチマークで強い性能を示してきたが、しばしばモダリティの優位性に悩まされ、予測は単一のモダリティに依存している。
それまでのアプローチでは、すべてのモダリティが十分な情報を提供すると暗黙的に仮定して、モデルが注意を割り当てることによってこの問題に対処していた。
しかし、注意はモデルがどこにフォーカスするかを判断し、欠落している情報や曖昧な情報を豊かにすることはできない。
実世界では、入力モダリティは情報密度と信号対雑音比にしばしば異なる。
このような場合、単にモデルの注意を調整するだけでは、基礎となる情報の欠如を解決できない。
本稿では,融合前の情報格差を明示的に低減する情報レベル融合手法である「textsc{MoIR}: \textit{Multi-modal Information Router}」を提案する。
\textsc{MoIR} は、より少ない情報的トークンを特定し、より強力なモダリティから補完的な情報をルーティングし、大きな言語モデルによって処理される前に、情報密度のトークン表現を構築する。
情報の可用性を変更することで,1つのモダリティが劣化しても,モダリティ支配の確実なシフトを可能にする。
複数のモデルバックボーンにまたがる3つの広く使われているマルチモーダルベンチマークに対して, <textsc{MoIR} を評価する。
実験結果から, <textsc{MoIR} はよりバランスの取れたモダリティの寄与を一貫して示し,特にモダリティ劣化下においてもロバスト性および下流性能を向上させることが示された。
これらの結果から,クロスモーダル情報の明示的な修正は,マルチモーダル推論モデルにおけるモダリティ優位を緩和するための効果的かつ補完的な戦略であることが示唆された。
関連論文リスト
- Evaluation Before Generation: A Paradigm for Robust Multimodal Sentiment Analysis with Missing Modalities [21.767502810187477]
モダリティの欠如は、マルチモーダルな感情分析において根本的な課題となる。
既存のアプローチは主に、素早い学習と事前訓練されたモデルを通じて堅牢性を改善する。
Promptベースのミスモダリティ適応フレームワークがこれらの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2026-04-07T07:59:06Z) - When Language Overrules: Revealing Text Dominance in Multimodal Large Language Models [10.106066580331584]
我々は,画像,ビデオ,オーディオ,時系列,グラフなど多種多様なデータモダリティにまたがるテキスト優位性を,初めて体系的に調査した。
奥行き分析では,非テクスチュアルなモダリティにおける高度トークン冗長性からの注意の希釈,融合アーキテクチャ設計の影響,テキスト入力を暗黙的に好むタスクの定式化という,3つの根本原因を明らかにした。
論文 参考訳(メタデータ) (2025-08-14T11:44:52Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Rethinking Explainability in the Era of Multimodal AI [9.57008593971486]
マルチモーダルAIシステムはユビキタスになり、ハイテイクなアプリケーションにまたがって優れたパフォーマンスを実現している。
既存の説明可能性のテクニックの多くは単調のままであり、モダリティ固有の特徴属性、概念、回路トレースを分離して生成する。
本稿では, マルチモーダルモデル決定を駆動するクロスモーダルな影響を, 体系的に誤表現し, 捉えることができないことを論じる。
論文 参考訳(メタデータ) (2025-06-16T03:08:29Z) - Reliable Multi-Modal Object Re-Identification via Modality-Aware Graph Reasoning [20.242422751083588]
我々は、MGRNet(Modality-aware Graph Reasoning Network)と呼ばれる新しいグラフ推論モデルを活用することを提案する。
まず、微粒な局所的詳細の抽出を強化するために、モダリティ対応グラフを構築する。
次に、選択グラフノードスワップ演算を用いて、低品質な局所的特徴の悪影響を軽減する。
論文 参考訳(メタデータ) (2025-04-21T03:58:40Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Which is Making the Contribution: Modulating Unimodal and Cross-modal
Dynamics for Multimodal Sentiment Analysis [18.833050804875032]
マルチモーダル感情分析(MSA)は、マルチモーダルデータの利用により注目される。
最近のMSAは、主にクロスモーダル力学の学習に重点を置いているが、ユニモーダルネットワークの最適解を探すことは無視されている。
MSAフレームワーク textbfModulation textbfModel for textbfMultimodal textbfSentiment textbfAnalysisを提案する。
論文 参考訳(メタデータ) (2021-11-10T03:29:17Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。