論文の概要: M$^2$IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering
- arxiv url: http://arxiv.org/abs/2504.04633v2
- Date: Fri, 08 Aug 2025 13:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 18:31:47.103645
- Title: M$^2$IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering
- Title(参考訳): M$^2$IV:表現工学による効率的かつきめ細かなマルチモーダルインコンテキスト学習を目指して
- Authors: Yanshu Li, Yi Cao, Hongyang He, Qisen Cheng, Xiang Fu, Xi Xiao, Tianyang Wang, Ruixiang Tang,
- Abstract要約: マルチモーダル・インコンテキスト・ラーニング(ICL)は、LVLM(Large Vision-Language Models)と、複数のユーザが提供するデモを通じて新しいタスクに適応する能力を備えている。
しかし、その効果はマルチモーダル入力のトークン集約性や、クロスモーダルな数ショット推論の複雑さによって制約されている。
textbfM$2$IVは、明示的なトークンレベルのデモを学習可能なマルチモーダル・インコンテキストベクトルの集合に置き換える新しい表現工学手法である。
- 参考スコア(独自算出の注目度): 17.8147232865336
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal in-context learning (ICL) equips Large Vision-language Models (LVLMs) with the ability to adapt to new tasks via multiple user-provided demonstrations, without requiring any model parameter updates. However, its effectiveness is constrained by the token-intensive nature of multimodal inputs and the complexity of cross-modal few-shot reasoning, which together hinder LVLMs from extracting useful patterns from demonstrations. To address these challenges, we propose \textbf{M$^2$IV}, a novel representation engineering approach that replaces explicit token-level demonstrations with a set of learnable Multimodal In-context Vectors directly injected into the residual streams of LVLMs. By analyzing the distinct roles of multi-head attention (MHA) and multi-layer perceptrons (MLP) in the ICL process, we design a training strategy that enables M$^2$IV to perform fine-grained semantic distillation and robust cross-modal representation learning. M$^2$IV not only improves performance across diverse tasks and LVLMs but also significantly reduces token overhead, enabling graceful scaling to many-shot scenarios. To further enhance usability, we introduce \textbf{VLibrary}, a repository that stores trained M$^2$IVs for flexible retrieval and injection. With VLibrary, users can steer pre-trained LVLMs in a customized manner that meets diverse requirements. Extensive experiments demonstrate that M$^2$IV consistently outperforms vanilla ICL and prior representation engineering baselines, achieving an average accuracy gain of 3.74\% with substantial improvements in overall efficiency.
- Abstract(参考訳): マルチモーダル・インコンテキスト・ラーニング(ICL)は、LVLM(Large Vision-Language Models)に、モデルパラメータの更新を必要とせずに、複数のユーザが提供するデモを通じて新しいタスクに適応する機能を備えている。
しかし、その有効性はマルチモーダル入力のトークン集約性やクロスモーダルな数ショット推論の複雑さによって制約され、これによりデモから有用なパターンを抽出するLVLMが妨げられる。
これらの課題に対処するために,LVLMの残留ストリームに直接直接注入される学習可能なマルチモーダル・インコンテキストベクトルの集合に,明示的なトークンレベルのデモを置き換える,新しい表現工学手法である \textbf{M$^2$IV} を提案する。
ICLプロセスにおけるMHA(Multi-head attention)とMLP(Multi-layer perceptron)の役割を解析することにより、M$^2$IVが微細なセマンティック蒸留と堅牢なクロスモーダル表現学習を実現するためのトレーニング戦略を設計する。
M$^2$IVは、多様なタスクやLVLMのパフォーマンスを改善するだけでなく、トークンのオーバーヘッドを大幅に減らし、多数のシナリオへの優雅なスケーリングを可能にします。
ユーザビリティをさらに向上するために、訓練されたM$^2$IVsを格納してフレキシブルな検索とインジェクションを行うレポジトリである \textbf{VLibrary} を導入する。
VLibraryを使えば、ユーザーは様々な要件を満たすカスタマイズされた方法で、事前訓練されたLVLMを操ることができる。
大規模な実験により、M$^2$IVはバニラICLと先行表現工学のベースラインを一貫して上回り、全体の効率を大幅に改善した平均精度が3.74\%に達することを示した。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - LIVE: Learnable In-Context Vector for Visual Question Answering [37.89141789981324]
In-Context Learning (ICL) 機能を備えたLMM(Large Multimodal Models) を開発した。
ICLの適用は通常、2つの大きな課題に直面している。1) より多くのICDを使用すると、推論時間が大きく増加し、2) 性能はICDの選択に敏感になる。
実演からタスク情報を抽出するLearning In-Context VEctor (LIVE)を提案する。
論文 参考訳(メタデータ) (2024-06-19T03:33:45Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Can MLLMs Perform Text-to-Image In-Context Learning? [11.303734988815016]
テキスト・ツー・イメージ ICL (T2I-ICL) の特徴と潜在的な用途はいまだ検討されていない。
我々は6つの最先端マルチモーダル言語モデル(MLLM)をベンチマークする。
我々は、主な課題を、マルチモーダルと画像生成の固有の複雑さとして認識し、微調整やチェーン・オブ・ソートのような戦略がこれらの困難を緩和する助けとなることを示す。
論文 参考訳(メタデータ) (2024-02-02T10:30:05Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。