論文の概要: SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs
- arxiv url: http://arxiv.org/abs/2408.11813v2
- Date: Fri, 05 Sep 2025 07:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.020992
- Title: SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs
- Title(参考訳): SEA:MLLMにおけるToken-Levelビジュアルテキスト統合のための改善された埋め込みアライメント
- Authors: Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Yuanxing Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Wentao Zhang, Feng Zhao,
- Abstract要約: Supervised Embedding Alignment (SEA) は、事前トレーニング中により正確な視覚的テキストアライメントを可能にするトークンレベルのアライメント手法である。
包括的分析により,マルチモーダル統合におけるアダプタの役割について重要な知見が得られた。
- 参考スコア(独自算出の注目度): 31.88022265176855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities by integrating visual and textual inputs, yet modality alignment remains one of the most challenging aspects. Current MLLMs typically rely on simple adapter architectures and pretraining approaches to bridge vision encoders with large language models (LLM), guided by image-level supervision. We identify this paradigm often leads to suboptimal alignment between modalities, significantly constraining the LLM's ability to properly interpret and reason with visual features particularly for smaller language models. This limitation degrades overall performance-particularly for smaller language models where capacity constraints are more pronounced and adaptation capabilities are limited. To address this fundamental limitation, we propose Supervised Embedding Alignment (SEA), a token-level supervision alignment method that enables more precise visual-text alignment during pretraining. SEA introduces minimal computational overhead while preserving language capabilities and substantially improving cross-modal understanding. Our comprehensive analyses reveal critical insights into the adapter's role in multimodal integration, and extensive experiments demonstrate that SEA consistently improves performance across various model sizes, with smaller models benefiting the most (average performance gain of 7.61% for Gemma-2B). This work establishes a foundation for developing more effective alignment strategies for future multimodal systems.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚とテキストの入力を統合することで、目覚ましい能力を示したが、モダリティアライメントは最も難しい側面の1つである。
現在のMLLMは、通常、イメージレベルの監督によってガイドされる大きな言語モデル (LLM) による視覚エンコーダをブリッジするための単純なアダプタアーキテクチャと事前訓練アプローチに依存している。
我々は、このパラダイムをしばしば、モダリティ間の最適下限のアライメントに結びつき、特により小さな言語モデルにおいて、LLMの視覚的特徴を適切に解釈し、推論する能力を著しく制限する。
この制限は、特にキャパシティの制約がより強調され、適応能力が制限されたより小さな言語モデルにおいて、全体的なパフォーマンスを低下させる。
この基本的な制限に対処するために,事前学習中により正確な視覚的テキストアライメントを可能にするトークンレベルの監督アライメント手法であるSupervised Embedding Alignment (SEA)を提案する。
SEAは、言語能力を維持しながら最小限の計算オーバーヘッドを導入し、モーダル間理解を大幅に改善する。
包括的分析により,マルチモーダル統合におけるアダプタの役割について重要な知見が得られ,より広範な実験により,SEAは様々なモデルサイズにわたるパフォーマンスを一貫して改善し,より小さなモデルが最も恩恵を受け(Gemma-2Bでは平均7.61%の性能向上)。
この研究は、将来のマルチモーダルシステムのためのより効果的なアライメント戦略を開発するための基盤を確立する。
関連論文リスト
- LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models [9.660892239615364]
本研究は、ハイブリッドMLLMのための視覚トークンの融合戦略を探求し、LEOの設計に繋がる。
Leoは、適応後の融合戦略と適応型タイリングを組み込んだデュアルブランチビジョンエンコーダフレームワークを備えた、新しいMLLMである。
LEOは、モデルアーキテクチャやトレーニングレシピを変更することなく、自律運転の専門領域に適応できることを示す。
論文 参考訳(メタデータ) (2025-01-13T00:29:55Z) - Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。
MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。
市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文 参考訳(メタデータ) (2024-12-02T09:02:28Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。
LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。
提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。