論文の概要: VPGTrans: Transfer Visual Prompt Generator across LLMs
- arxiv url: http://arxiv.org/abs/2305.01278v2
- Date: Tue, 24 Oct 2023 02:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 01:04:24.867135
- Title: VPGTrans: Transfer Visual Prompt Generator across LLMs
- Title(参考訳): VPGTrans: LLM間でのビジュアルプロンプトジェネレータの転送
- Authors: Ao Zhang, Hao Fei, Yuan Yao, Wei Ji, Li Li, Zhiyuan Liu, and Tat-Seng
Chua
- Abstract要約: 我々はVPGTransという2段階の転送フレームワークを設計する。
我々はVPGTransが性能を損なうことなく転送学習プロセスを大幅に高速化することを示した。
- 参考スコア(独自算出の注目度): 79.50586761818069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While developing a new multimodal LLM (MLLM) by pre-training on tremendous
image-text pairs from scratch can be exceedingly resource-consuming, connecting
an existing LLM with a comparatively lightweight visual prompt generator (VPG)
becomes a feasible paradigm. However, further tuning the VPG part of the MLLM
still suffers from indispensable computational costs, i.e., requiring thousands
of GPU hours and millions of training data. One alternative solution is to
transfer an existing VPG from any existing MLLMs for the target MLLM.
In this work, we for the first time investigate the VPG transferability
across LLMs, and explore a solution to reduce the cost of VPG transfer. We
first study the VPG transfer across different LLM sizes (e.g., small-to-large),
and across different LLM types, through which we diagnose the key factors to
maximize the transfer efficiency. Based on our observation, we design a
two-stage transfer framework named VPGTrans, which is simple yet highly
effective. Through extensive experiments, we demonstrate that VPGTrans helps
significantly speed up the transfer learning process without compromising
performance. Remarkably, it helps achieve the VPG transfer from BLIP-2
OPT$_\text{2.7B}$ to BLIP-2 OPT$_\text{6.7B}$ with over 10 times speed-up and
10.7% training data compared with connecting a VPG to OPT$_\text{6.7B}$ from
scratch. Further, a series of intriguing findings and potential rationales
behind them are provided and discussed. Finally, we showcase the practical
value of our VPGTrans approach, by customizing two novel MLLMs, including
VL-LLaMA and VL-Vicuna, with recently released LLaMA and Vicuna LLMs.
- Abstract(参考訳): 画像テキストペアをスクラッチから事前学習することで,新たなマルチモーダル LLM (MLLM) を開発するには, 既存の LLM を比較的軽量なビジュアルプロンプトジェネレータ (VPG) と接続することが, 実現可能なパラダイムとなる。
しかし、MLLMのVPG部分のさらなるチューニングは依然として必要な計算コスト、すなわち何千時間ものGPU時間と数百万のトレーニングデータに悩まされている。
1つの代替策は、既存のMLLMからターゲットMLLMに既存のVPGを転送することである。
本研究では,LLM間のVPG転送可能性について初めて検討し,VPG転送コストを低減するための解決策を探究する。
我々はまず, 異なるLLMサイズ(例えば, 小さいから大きい)および異なるLLMタイプにわたるVPG転送について検討し, 転送効率を最大化するために重要な因子を診断する。
本稿では,VPGTransという2段階の転送フレームワークを設計する。
広範な実験を通じて,vpgtransは,パフォーマンスを損なうことなく,転送学習プロセスを大幅に高速化できることを実証する。
BLIP-2 OPT$_\text{2.7B}$からBLIP-2 OPT$_\text{6.7B}$へのVPG転送には10倍以上のスピードアップと10.7%のトレーニングデータがある。
さらに、その背後にある一連の興味深い発見と潜在的な根拠を提供し、議論する。
最後に、VL-LLaMAとVL-Vicunaを含む2つの新しいMLLMと、最近リリースされたLLaMAとVicuna LLMをカスタマイズすることで、VPGTransアプローチの実用価値を示す。
関連論文リスト
- OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework [11.512418684814026]
我々は,TikTok上での映像品質の理解向上を目的とした,新しいケースケードMLLMフレームワークであるCOEF-VQを提案する。
COEF-VQの有効性を示すため、TikTokのビデオ管理プラットフォーム(VMP)に新しいフレームワークをデプロイした。
この2つのタスクにおいて,COEF-VQは資源消費を抑えながら,大幅な性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-12-11T08:10:32Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。
VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。
タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning)
TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:51:21Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。