論文の概要: ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning
- arxiv url: http://arxiv.org/abs/2410.17779v1
- Date: Wed, 23 Oct 2024 11:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:47.450484
- Title: ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning
- Title(参考訳): ADEM-VL:高能率ビジョンランゲージチューニングのための適応型および組込み型核融合
- Authors: Zhiwei Hao, Jianyuan Guo, Li Shen, Yong Luo, Han Hu, Yonggang Wen,
- Abstract要約: ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
- 参考スコア(独自算出の注目度): 38.26304604660713
- License:
- Abstract: Recent advancements in multimodal fusion have witnessed the remarkable success of vision-language (VL) models, which excel in various multimodal applications such as image captioning and visual question answering. However, building VL models requires substantial hardware resources, where efficiency is restricted by two key factors: the extended input sequence of the language model with vision features demands more computational operations, and a large number of additional learnable parameters increase memory complexity. These challenges significantly restrict the broader applicability of such models. To bridge this gap, we propose ADEM-VL, an efficient vision-language method that tunes VL models based on pretrained large language models (LLMs) by adopting a parameter-free cross-attention mechanism for similarity measurements in multimodal fusion. This approach only requires embedding vision features into the language space, significantly reducing the number of trainable parameters and accelerating both training and inference speeds. To enhance representation learning in fusion module, we introduce an efficient multiscale feature generation scheme that requires only a single forward pass through the vision encoder. Moreover, we propose an adaptive fusion scheme that dynamically discards less relevant visual information for each text token based on its attention score. This ensures that the fusion process prioritizes the most pertinent visual features. With experiments on various tasks including visual question answering, image captioning, and instruction-following, we demonstrate that our framework outperforms existing approaches. Specifically, our method surpasses existing methods by an average accuracy of 0.77% on ScienceQA dataset, with reduced training and inference latency, demonstrating the superiority of our framework. The code is available at https://github.com/Hao840/ADEM-VL.
- Abstract(参考訳): 近年のマルチモーダル融合は視覚言語(VL)モデルの顕著な成功を目の当たりにしており、画像キャプションや視覚質問応答といった様々なマルチモーダル応用に優れている。
しかしながら、VLモデルの構築には相当なハードウェアリソースが必要であり、効率は2つの重要な要因によって制限されている。
これらの課題は、そのようなモデルのより広範な適用性を著しく制限する。
このギャップを埋めるために,マルチモーダル融合における類似度測定にパラメータフリーのクロスアテンション機構を採用することで,事前学習された大言語モデル(LLM)に基づいてVLモデルをチューニングする効率的な視覚言語手法ADEM-VLを提案する。
このアプローチでは、言語空間に視覚機能を埋め込むだけで、トレーニング可能なパラメータの数が大幅に減少し、トレーニングと推論の速度が加速する。
融合モジュールにおける表現学習を強化するため、視覚エンコーダを1つの前方通過だけで済む効率的なマルチスケール特徴生成方式を提案する。
さらに,各テキストトークンの注目スコアに基づいて,関連性の低い視覚情報を動的に破棄する適応型融合方式を提案する。
これにより、融合プロセスが最も重要な視覚的特徴を優先することを保証する。
視覚的質問応答や画像キャプション,指示追従といった様々なタスクの実験により,我々のフレームワークが既存手法より優れていることを示す。
具体的には,ScienceQAデータセットの平均精度0.77%で既存の手法を上回り,トレーニングと推論遅延を低減し,フレームワークの優位性を実証する。
コードはhttps://github.com/Hao840/ADEM-VLで公開されている。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning [6.648544684097181]
視覚と言語を視覚言語モデル(VLM)に統合するマルチモーダルモデル
本稿では,VLMの学習にフェデレートラーニングとパラメータ効率のよいアダプタを利用する新しい手法を提案する。
我々のアプローチでは、トレーニング時間を最大34.72倍に短縮し、完全な微調整よりも2.47倍のメモリ使用量を必要とする。
論文 参考訳(メタデータ) (2024-04-12T00:36:43Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities [11.53488611812612]
近年のVision-Language(VL)モデルの進歩は、エッジデバイスへの展開への関心を喚起している。
We introduced EdgeVL, a novel framework that seamlessly integrates dual-modality knowledge distillation and Quantization-aware contrastive learning。
私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。
論文 参考訳(メタデータ) (2024-03-07T21:34:40Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。