論文の概要: MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs
- arxiv url: http://arxiv.org/abs/2506.01850v1
- Date: Mon, 02 Jun 2025 16:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.610761
- Title: MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs
- Title(参考訳): MoDA: インストラクショナルMLLMにおける微視的グラウンド化のための変調アダプタ
- Authors: Wayner Barrios, Andrés Villa, Juan León Alcázar, SouYoung Jin, Bernard Ghanem,
- Abstract要約: MoDAは、命令誘導変調により、事前整列された視覚的特徴を洗練するために設計された軽量モジュールである。
実験の結果,MoDAは視覚的接地を改善し,文脈的に適切な応答を生成することがわかった。
- 参考スコア(独自算出の注目度): 48.467434164863086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have demonstrated impressive performance on instruction-following tasks by integrating pretrained visual encoders with large language models (LLMs). However, existing approaches often struggle to ground fine-grained visual concepts in complex scenes. In this paper, we propose MoDA (Modulation Adapter), a lightweight yet effective module designed to refine pre-aligned visual features through instruction-guided modulation. Our approach follows the standard LLaVA training protocol, consisting of a two-stage process: (1) aligning image features to the LLMs input space via a frozen vision encoder and adapter layers, and (2) refining those features using the MoDA adapter during the instructional tuning stage. MoDA employs a Transformer-based cross-attention mechanism to generate a modulation mask over the aligned visual tokens, thereby emphasizing semantically relevant embedding dimensions based on the language instruction. The modulated features are then passed to the LLM for autoregressive language generation. Our experimental evaluation shows that MoDA improves visual grounding and generates more contextually appropriate responses, demonstrating its effectiveness as a general-purpose enhancement for image-based MLLMs.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLM) は,事前学習した視覚エンコーダを大型言語モデル (LLM) に統合することにより,命令追従タスクにおける印象的な性能を実証している。
しかし、既存のアプローチは複雑な場面で細かい視覚概念を根ざすのに苦労することが多い。
本稿では,命令誘導変調による視覚的特徴の高度化を目的とした軽量で効果的なモジュールであるMoDA(Modulation Adapter)を提案する。
提案手法は,(1)凍結型視覚エンコーダとアダプタ層を介してLLMの入力空間に画像特徴を整列させ,(2)指導段階のMoDAアダプタを用いてそれらの特徴を補修する,という2段階のプロセスからなる標準的なLLaVAトレーニングプロトコルに従う。
MoDAはトランスフォーマーをベースとしたクロスアテンション機構を用いて、アライメントされた視覚トークン上の変調マスクを生成し、言語命令に基づいて意味的に関連する埋め込み次元を強調する。
変調された機能は、自動回帰言語生成のためにLLMに渡される。
実験により,MoDAは視覚的グラウンド化を改善し,より文脈的に適切な応答を生成し,画像ベースMLLMの汎用的拡張としての有効性を示した。
関連論文リスト
- HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model [60.22693761583569]
パラメータ効率のよいビジュアルインストラクションモデルであるLLaMA-Adapter V2を提案する。
具体的には、より学習可能なパラメータをアンロックすることで、LLaMA-Adapterを初めて拡張する。
第3に、画像テキストペアと命令追従データの合同トレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2023-04-28T17:59:25Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。