論文の概要: Transfer Visual Prompt Generator across LLMs
- arxiv url: http://arxiv.org/abs/2305.01278v1
- Date: Tue, 2 May 2023 09:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:56:47.666562
- Title: Transfer Visual Prompt Generator across LLMs
- Title(参考訳): LLM間での視覚プロンプトジェネレータの転送
- Authors: Ao Zhang, Hao Fei, Yuan Yao, Wei Ji, Li Li, Zhiyuan Liu, and Tat-Seng
Chua
- Abstract要約: 我々はVPGTransという2段階の転送フレームワークを設計する。
我々はVPGTransが性能を損なうことなく転送学習プロセスを大幅に高速化することを示した。
- 参考スコア(独自算出の注目度): 80.60521382691023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While developing a new vision-language LLM (VL-LLM) by pre-training on
tremendous image-text pairs from scratch can be exceedingly resource-consuming,
connecting an existing LLM with a comparatively lightweight visual prompt
generator (VPG) becomes a feasible paradigm. However, further tuning the VPG
part of the VL-LLM still suffers from indispensable computational costs, i.e.,
requiring thousands of GPU hours and millions of training data. One alternative
solution is to transfer an existing VPG from any existing VL-LLMs for the
target VL-LLM.
In this work, we for the first time investigate the VPG transferability
across LLMs, and explore a solution to reduce the cost of VPG transfer. We
first study the VPG transfer across different LLM sizes (e.g., small-to-large),
and across different LLM types, through which we diagnose the key factors to
maximize the transfer efficiency. Based on our observation, we design a
two-stage transfer framework named VPGTrans, which is simple yet highly
effective. Through extensive experiments, we demonstrate that VPGTrans helps
significantly speed up the transfer learning process without compromising
performance. Remarkably, it helps achieve the VPG transfer from BLIP-2
OPT$_\text{2.7B}$ to BLIP-2 OPT$_\text{6.7B}$ with over 10 times speed-up and
10.7% training data compared with connecting a VPG to OPT$_\text{6.7B}$ from
scratch. Further, a series of intriguing findings and potential rationales
behind them are provided and discussed. Finally, we showcase the practical
value of our VPGTrans approach, by customizing two novel VL-LLMs, including
VL-LLaMA and VL-Vicuna, with recently released LLaMA and Vicuna LLMs.
- Abstract(参考訳): 新しい視覚言語LLM(VL-LLM)の開発は、画像テキストペアをスクラッチから事前学習することで、資源を消費し、既存のLLMと比較的軽量なビジュアルプロンプトジェネレータ(VPG)を接続することが実現可能なパラダイムとなる。
しかし、VL-LLMのVPG部分のチューニングは依然として必要な計算コスト、すなわち何千時間ものGPU時間と数百万のトレーニングデータを必要としている。
1つの代替策は、既存のVL-LLMから既存のVL-LLMへ既存のVPGを転送することである。
本研究では,LLM間のVPG転送可能性について初めて検討し,VPG転送コストを低減するための解決策を探究する。
我々はまず, 異なるLLMサイズ(例えば, 小さいから大きい)および異なるLLMタイプにわたるVPG転送について検討し, 転送効率を最大化するために重要な因子を診断する。
本稿では,VPGTransという2段階の転送フレームワークを設計する。
広範な実験を通じて,vpgtransは,パフォーマンスを損なうことなく,転送学習プロセスを大幅に高速化できることを実証する。
BLIP-2 OPT$_\text{2.7B}$からBLIP-2 OPT$_\text{6.7B}$へのVPG転送には10倍以上のスピードアップと10.7%のトレーニングデータがある。
さらに、その背後にある一連の興味深い発見と潜在的な根拠を提供し、議論する。
最後に、VL-LLaMAとVL-Vicunaを含む2つの新しいVL-LLMを、最近リリースされたLLaMAとVicuna LLMをカスタマイズすることで、VPGTransアプローチの実用価値を示す。
関連論文リスト
- From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。
VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。
タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning)
TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:51:21Z) - Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large
Language Models [84.78513908768011]
MRA(Mixture-of-Resolution Adaptation)と呼ばれるMLLMの新規かつ効率的な手法を提案する。
MRAは解像度の異なる画像に対して2つの視覚経路を採用し、高解像度の視覚情報を低解像度の経路に埋め込む。
MRAを検証するために、LLaVAと呼ばれる最近のMLLMに適用し、新しいモデルLLaVA-HRと呼ぶ。
論文 参考訳(メタデータ) (2024-03-05T14:31:24Z) - OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination
Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。
SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文 参考訳(メタデータ) (2024-02-20T11:01:39Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative
Instructions [130.51646691263633]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。