論文の概要: M2IV: Towards Efficient and Fine-grained Multimodal In-Context Learning in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.04633v1
- Date: Sun, 06 Apr 2025 22:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:37.132717
- Title: M2IV: Towards Efficient and Fine-grained Multimodal In-Context Learning in Large Vision-Language Models
- Title(参考訳): M2IV:大規模視覚言語モデルにおけるマルチモーダル・インコンテキスト学習の効率化に向けて
- Authors: Yanshu Li, Hongyang He, Yi Cao, Qisen Cheng, Xiang Fu, Ruixiang Tang,
- Abstract要約: 学習可能なtextbfVectors を LVLM に直接組み込んだ明示的なデモンストレーションを代用する textbfM2IV を提案する。
M2IVは、トレーニングを通じて堅牢なクロスモーダル忠実度と微粒なセマンティック蒸留を実現する。
実験の結果、M2IVはVanilla ICLと先行表現工学のアプローチを超越していることがわかった。
- 参考スコア(独自算出の注目度): 11.542439154523647
- License:
- Abstract: Multimodal in-context learning (ICL) is a vital capability for Large Vision-Language Models (LVLMs), allowing task adaptation via contextual prompts without parameter retraining. However, its application is hindered by the token-intensive nature of inputs and the high complexity of cross-modal few-shot learning, which limits the expressive power of representation methods. To tackle these challenges, we propose \textbf{M2IV}, a method that substitutes explicit demonstrations with learnable \textbf{I}n-context \textbf{V}ectors directly integrated into LVLMs. By exploiting the complementary strengths of multi-head attention (\textbf{M}HA) and multi-layer perceptrons (\textbf{M}LP), M2IV achieves robust cross-modal fidelity and fine-grained semantic distillation through training. This significantly enhances performance across diverse LVLMs and tasks and scales efficiently to many-shot scenarios, bypassing the context window limitations. We also introduce \textbf{VLibrary}, a repository for storing and retrieving M2IV, enabling flexible LVLM steering for tasks like cross-modal alignment, customized generation and safety improvement. Experiments across seven benchmarks and three LVLMs show that M2IV surpasses Vanilla ICL and prior representation engineering approaches, with an average accuracy gain of \textbf{3.74\%} over ICL with the same shot count, alongside substantial efficiency advantages.
- Abstract(参考訳): マルチモーダル・イン・コンテクスト・ラーニング(ICL)は、LVLM(Large Vision-Language Models)において重要な機能であり、パラメータ再トレーニングなしで文脈的プロンプトによるタスク適応を可能にする。
しかし、その応用は、入力のトークン集約的な性質と、表現法の表現力を制限するクロスモーダルな少数ショット学習の複雑さによって妨げられている。
これらの課題に対処するため,学習可能な \textbf{I}n-context \textbf{V}ectors を LVLM に直接組み込む方法である \textbf{M2IV} を提案する。
マルチヘッドアテンション (\textbf{M}HA) と多層パーセプトロン (\textbf{M}LP) の相補的な強みを利用して、M2IV はトレーニングによって頑健なクロスモーダル忠実性と微粒なセマンティック蒸留を実現する。
これにより、様々なLVLMやタスクのパフォーマンスが大幅に向上し、コンテキストウィンドウの制限を回避して、多くのシナリオに効率的にスケールできる。
また、M2IVの保存と検索のためのレポジトリである \textbf{VLibrary} を導入し、クロスモーダルアライメント、カスタマイズされた生成、安全性向上といったタスクに対して柔軟なLVLMステアリングを可能にする。
7つのベンチマークと3つのLVLMによる実験の結果、M2IVはバニラICLと先行表現工学のアプローチを上回り、同じショット数でICLよりも平均精度が向上した。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - LIVE: Learnable In-Context Vector for Visual Question Answering [37.89141789981324]
In-Context Learning (ICL) 機能を備えたLMM(Large Multimodal Models) を開発した。
ICLの適用は通常、2つの大きな課題に直面している。1) より多くのICDを使用すると、推論時間が大きく増加し、2) 性能はICDの選択に敏感になる。
実演からタスク情報を抽出するLearning In-Context VEctor (LIVE)を提案する。
論文 参考訳(メタデータ) (2024-06-19T03:33:45Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Can MLLMs Perform Text-to-Image In-Context Learning? [11.303734988815016]
テキスト・ツー・イメージ ICL (T2I-ICL) の特徴と潜在的な用途はいまだ検討されていない。
我々は6つの最先端マルチモーダル言語モデル(MLLM)をベンチマークする。
我々は、主な課題を、マルチモーダルと画像生成の固有の複雑さとして認識し、微調整やチェーン・オブ・ソートのような戦略がこれらの困難を緩和する助けとなることを示す。
論文 参考訳(メタデータ) (2024-02-02T10:30:05Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。