論文の概要: When Language Overrules: Revealing Text Dominance in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.10552v1
- Date: Thu, 14 Aug 2025 11:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.289479
- Title: When Language Overrules: Revealing Text Dominance in Multimodal Large Language Models
- Title(参考訳): 言語が過大評価されるとき:マルチモーダル大言語モデルにおけるテキスト優位性を明らかにする
- Authors: Huyu Wu, Meng Tang, Xinhan Zheng, Haiyun Jiang,
- Abstract要約: 我々は,画像,ビデオ,オーディオ,時系列,グラフなど多種多様なデータモダリティにまたがるテキスト優位性を,初めて体系的に調査した。
奥行き分析では,非テクスチュアルなモダリティにおける高度トークン冗長性からの注意の希釈,融合アーキテクチャ設計の影響,テキスト入力を暗黙的に好むタスクの定式化という,3つの根本原因を明らかにした。
- 参考スコア(独自算出の注目度): 10.106066580331584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities across a diverse range of multimodal tasks. However, these models suffer from a core problem known as text dominance: they depend heavily on text for their inference, while underutilizing other modalities. While prior work has acknowledged this phenomenon in vision-language tasks, often attributing it to data biases or model architectures. In this paper, we conduct the first systematic investigation of text dominance across diverse data modalities, including images, videos, audio, time-series, and graphs. To measure this imbalance, we propose two evaluation metrics: the Modality Dominance Index (MDI) and the Attention Efficiency Index (AEI). Our comprehensive analysis reveals that text dominance is both significant and pervasive across all tested modalities. Our in-depth analysis identifies three underlying causes: attention dilution from severe token redundancy in non-textual modalities, the influence of fusion architecture design, and task formulations that implicitly favor textual inputs. Furthermore, we propose a simple token compression method that effectively rebalances model attention. Applying this method to LLaVA-7B, for instance, drastically reduces its MDI from 10.23 to a well-balanced value of 0.86. Our analysis and methodological framework offer a foundation for the development of more equitable and comprehensive multimodal language models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々なマルチモーダルタスクにまたがる顕著な機能を示す。
しかし、これらのモデルはテキスト支配(text dominance)として知られる中核的な問題に悩まされる。
以前の研究では、この現象を視覚言語タスクで認めており、しばしばデータバイアスやモデルアーキテクチャに起因する。
本稿では,画像,ビデオ,音声,時系列,グラフなど,多種多様なデータモダリティにおけるテキスト優位性について,初めて体系的に調査する。
この不均衡を測定するために,モダリティ支配指数 (MDI) と注意効率指数 (AEI) の2つの評価指標を提案する。
包括的分析により、テキストの優位性は、テスト対象のすべてのモダリティにおいて重要かつ広範であることが明らかとなった。
奥行き分析では,非テクスチュアルなモダリティにおける高度トークン冗長性からの注意の希釈,融合アーキテクチャ設計の影響,テキスト入力を暗黙的に好むタスクの定式化という,3つの根本原因を明らかにした。
さらに,モデル注意を効果的に再バランスさせるシンプルなトークン圧縮手法を提案する。
例えば、LLaVA-7Bにこの方法を適用すると、MDIは10.23から0.86に大幅に減少する。
我々の分析と方法論の枠組みは、より公平で包括的なマルチモーダル言語モデルの開発の基礎を提供する。
関連論文リスト
- MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [26.867610944625337]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み
過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。
テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文 参考訳(メタデータ) (2024-04-06T07:56:09Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content
Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。
その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。
我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文 参考訳(メタデータ) (2022-11-04T17:58:02Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。