論文の概要: VISTA: Enhancing Vision-Text Alignment in MLLMs via Cross-Modal Mutual Information Maximization
- arxiv url: http://arxiv.org/abs/2505.10917v2
- Date: Mon, 19 May 2025 09:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.184286
- Title: VISTA: Enhancing Vision-Text Alignment in MLLMs via Cross-Modal Mutual Information Maximization
- Title(参考訳): VISTA:相互情報最大化によるMLLMにおけるビジョンテキストアライメントの強化
- Authors: Mingxiao Li, Na Su, Fang Qu, Zhizhou Zhong, Ziyang Chen, Yuan Li, Zhaopeng Tu, Xiaolong Li,
- Abstract要約: 現在のマルチモーダル大言語モデル(MLLM)は、モダリティアライメントにおいて重要な課題に直面している。
本稿では,MLLMにおいて広く使用されているクロスエントロピー損失の系統的情報理論解析を行う。
本稿では,視覚テキストアライメント(Vision-Text Alignment, VISTA)を提案する。
- 参考スコア(独自算出の注目度): 40.60627812703727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multimodal large language models (MLLMs) face a critical challenge in modality alignment, often exhibiting a bias towards textual information at the expense of other modalities like vision. This paper conducts a systematic information-theoretic analysis of the widely used cross-entropy loss in MLLMs, uncovering its implicit alignment objective. Our theoretical investigation reveals that this implicit objective has inherent limitations, leading to a degradation of cross-modal alignment as text sequence length increases, thereby hindering effective multimodal information fusion. To overcome these drawbacks, we propose Vision-Text Alignment (VISTA), a novel approach guided by our theoretical insights. VISTA introduces an explicit alignment objective designed to maximize cross-modal mutual information, preventing the degradation of visual alignment. Notably, VISTA enhances the visual understanding capabilities of existing MLLMs without requiring any additional trainable modules or extra training data, making it both efficient and practical. Our method significantly outperforms baseline models across more than a dozen benchmark datasets, including VQAv2, MMStar, and MME, paving the way for new directions in MLLM modal alignment research.
- Abstract(参考訳): 現在のマルチモーダル大言語モデル(MLLM)は、モダリティアライメントにおいて重要な課題に直面し、視覚のような他のモダリティを犠牲にして、しばしばテキスト情報に対するバイアスを示す。
本稿では,MLLMにおいて広く使用されているクロスエントロピー損失の系統的情報理論解析を行い,その暗黙的アライメントの目的を明らかにする。
我々の理論的研究は、この暗黙的目的には固有の制限があり、テキストシーケンスの長さが増加するにつれて、クロスモーダルアライメントが低下し、効果的なマルチモーダル情報融合を妨げていることを明らかにしている。
これらの欠点を克服するために、我々は理論的な洞察に導かれる新しいアプローチであるVision-Text Alignment (VISTA)を提案する。
VISTAは、相互情報を最大化し、視覚的アライメントの劣化を防ぐために設計された明示的なアライメントの目的を導入する。
特に、VISTAはトレーニング可能なモジュールや追加のトレーニングデータを必要としない既存のMLLMの視覚的理解能力を強化し、効率的かつ実用的なものにしている。
提案手法は,VQAv2,MMStar,MMEを含む10以上のベンチマークデータセットのベースラインモデルよりも優れ,MLLMアライメント研究における新たな方向性の道を開く。
関連論文リスト
- CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [19.37373012848517]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。
画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。
従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文 参考訳(メタデータ) (2024-12-09T17:11:50Z) - Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding [41.43688559565315]
我々は、事前訓練されたマルチモーダル大言語モデル(MLLM)に基づく新しいOCRフリー文書理解フレームワークを提案する。
本手法では,文書画像内のフォントサイズを多種多様な視覚的特徴量で処理する。
そこで本研究では,入力テキストの相対的な位置を学習することで,モデルのテキスト読解能力を向上させる新しい命令チューニングタスクを提案する。
論文 参考訳(メタデータ) (2024-11-08T00:58:12Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。