論文の概要: Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts
- arxiv url: http://arxiv.org/abs/2501.04322v2
- Date: Thu, 23 Jan 2025 08:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:25.592671
- Title: Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts
- Title(参考訳): Eve: 弾力的なビジュアルエキスパートによる効率的なマルチモーダルビジョン言語モデル
- Authors: Miao Rang, Zhenni Bi, Chuanjian Liu, Yehui Tang, Kai Han, Yunhe Wang,
- Abstract要約: 我々は、弾力的なビジュアルエキスパートによる効率的な視覚言語モデル(Eve)の革新的なフレームワークを紹介します。
訓練の複数の段階で視覚的専門知識を戦略的に取り入れることで、Eveは言語能力の保存とマルチモーダル能力の増強のバランスを取る。
言語ベンチマークでは明らかに優れており、VLMベンチマークでは68.87%の結果が得られた。
- 参考スコア(独自算出の注目度): 37.81475180129456
- License:
- Abstract: Multimodal vision language models (VLMs) have made significant progress with the support of continuously increasing model sizes and data volumes. Running VLMs on edge devices has become a challenge for their widespread application. There are several efficient VLM efforts, but they often sacrifice linguistic capabilities to enhance multimodal abilities, or require extensive training. To address this quandary,we introduce the innovative framework of Efficient Vision Language Models with Elastic Visual Experts (Eve). By strategically incorporating adaptable visual expertise at multiple stages of training, Eve strikes a balance between preserving linguistic abilities and augmenting multimodal capabilities. This balanced approach results in a versatile model with only 1.8B parameters that delivers significant improvements in both multimodal and linguistic tasks. Notably, in configurations below 3B parameters, Eve distinctly outperforms in language benchmarks and achieves state-of-the-art results 68.87% in VLM Benchmarks. Additionally, its multimodal accuracy outstrips that of the larger 7B LLaVA-1.5 model. Our code is available at https://github.com/rangmiao/Eve.
- Abstract(参考訳): マルチモーダル視覚言語モデル(VLM)は、モデルのサイズとデータボリュームを継続的に増加させ、大きな進歩を遂げている。
エッジデバイス上でのVLMの実行は、その広範なアプリケーションにとって課題となっている。
効率的なVLMの取り組みはいくつかあるが、多モーダル能力を高めるために言語能力を犠牲にしたり、広範囲の訓練を必要とすることが多い。
この四項に対処するために、弾性ビジュアルエキスパートによる効率的な視覚言語モデル(Eve)の革新的なフレームワークを紹介します。
訓練の複数の段階で適応可能な視覚的専門知識を戦略的に取り入れることで、Eveは言語能力の維持とマルチモーダル能力の増強のバランスを取る。
このバランスの取れたアプローチは、マルチモーダルタスクと言語タスクの両方において大幅な改善をもたらす1.8Bパラメータしか持たない汎用モデルをもたらす。
特に、3Bパラメータ以下の設定では、Eveは言語ベンチマークで明らかに優れており、VLMベンチマークで68.87%の結果が得られた。
さらに、マルチモーダルの精度は、より大きな7B LLaVA-1.5モデルの精度を上回っている。
私たちのコードはhttps://github.com/rangmiao/Eve.comから入手可能です。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - VL-Mamba: Exploring State Space Models for Multimodal Learning [22.701028299912398]
本研究では,状態空間モデルに基づく多モーダル大規模言語モデルであるVL-Mambaを提案する。
具体的には、まず、LLamaやVicunaのようなトランスフォーマーベースのバックボーン言語モデルを、事前訓練されたMamba言語モデルに置き換える。
論文 参考訳(メタデータ) (2024-03-20T13:48:50Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。