Fugu-MT 論文翻訳(概要): Transfer Visual Prompt Generator across LLMs

論文の概要: Transfer Visual Prompt Generator across LLMs

arxiv url: http://arxiv.org/abs/2305.01278v1
Date: Tue, 2 May 2023 09:28:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-03 14:56:47.666562
Title: Transfer Visual Prompt Generator across LLMs
Title（参考訳）: LLM間での視覚プロンプトジェネレータの転送
Authors: Ao Zhang, Hao Fei, Yuan Yao, Wei Ji, Li Li, Zhiyuan Liu, and Tat-Seng Chua
Abstract要約: 我々はVPGTransという2段階の転送フレームワークを設計する。我々はVPGTransが性能を損なうことなく転送学習プロセスを大幅に高速化することを示した。
参考スコア（独自算出の注目度）: 80.60521382691023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While developing a new vision-language LLM (VL-LLM) by pre-training on tremendous image-text pairs from scratch can be exceedingly resource-consuming, connecting an existing LLM with a comparatively lightweight visual prompt generator (VPG) becomes a feasible paradigm. However, further tuning the VPG part of the VL-LLM still suffers from indispensable computational costs, i.e., requiring thousands of GPU hours and millions of training data. One alternative solution is to transfer an existing VPG from any existing VL-LLMs for the target VL-LLM. In this work, we for the first time investigate the VPG transferability across LLMs, and explore a solution to reduce the cost of VPG transfer. We first study the VPG transfer across different LLM sizes (e.g., small-to-large), and across different LLM types, through which we diagnose the key factors to maximize the transfer efficiency. Based on our observation, we design a two-stage transfer framework named VPGTrans, which is simple yet highly effective. Through extensive experiments, we demonstrate that VPGTrans helps significantly speed up the transfer learning process without compromising performance. Remarkably, it helps achieve the VPG transfer from BLIP-2 OPT$_\text{2.7B}$ to BLIP-2 OPT$_\text{6.7B}$ with over 10 times speed-up and 10.7% training data compared with connecting a VPG to OPT$_\text{6.7B}$ from scratch. Further, a series of intriguing findings and potential rationales behind them are provided and discussed. Finally, we showcase the practical value of our VPGTrans approach, by customizing two novel VL-LLMs, including VL-LLaMA and VL-Vicuna, with recently released LLaMA and Vicuna LLMs.
Abstract（参考訳）: 新しい視覚言語LLM(VL-LLM)の開発は、画像テキストペアをスクラッチから事前学習することで、資源を消費し、既存のLLMと比較的軽量なビジュアルプロンプトジェネレータ(VPG)を接続することが実現可能なパラダイムとなる。しかし、VL-LLMのVPG部分のチューニングは依然として必要な計算コスト、すなわち何千時間ものGPU時間と数百万のトレーニングデータを必要としている。 1つの代替策は、既存のVL-LLMから既存のVL-LLMへ既存のVPGを転送することである。本研究では,LLM間のVPG転送可能性について初めて検討し,VPG転送コストを低減するための解決策を探究する。我々はまず, 異なるLLMサイズ(例えば, 小さいから大きい)および異なるLLMタイプにわたるVPG転送について検討し, 転送効率を最大化するために重要な因子を診断する。本稿では,VPGTransという2段階の転送フレームワークを設計する。広範な実験を通じて,vpgtransは,パフォーマンスを損なうことなく,転送学習プロセスを大幅に高速化できることを実証する。 BLIP-2 OPT$_\text{2.7B}$からBLIP-2 OPT$_\text{6.7B}$へのVPG転送には10倍以上のスピードアップと10.7%のトレーニングデータがある。さらに、その背後にある一連の興味深い発見と潜在的な根拠を提供し、議論する。最後に、VL-LLaMAとVL-Vicunaを含む2つの新しいVL-LLMを、最近リリースされたLLaMAとVicuna LLMをカスタマイズすることで、VPGTransアプローチの実用価値を示す。

関連論文リスト

OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。 OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework [11.512418684814026]
我々は,TikTok上での映像品質の理解向上を目的とした,新しいケースケードMLLMフレームワークであるCOEF-VQを提案する。 COEF-VQの有効性を示すため、TikTokのビデオ管理プラットフォーム(VMP)に新しいフレームワークをデプロイした。この2つのタスクにおいて,COEF-VQは資源消費を抑えながら,大幅な性能向上をもたらすことを示す。
論文参考訳（メタデータ） (2024-12-11T08:10:32Z)
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。最小限の設計により,本手法はビデオと画像の両方に応用できる。同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文参考訳（メタデータ） (2024-12-04T11:47:57Z)
$γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。 $gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。 MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文参考訳（メタデータ） (2024-10-17T17:59:53Z)
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
大型言語モデル(LLM)は視覚言語モデル(VLM)の暗黙の役割を果たす我々のGLOVメタプロンプトは、下流のタスク記述でLLMをメタプロンプトし、適切なVLMプロンプトに問い合わせる。 VLMの2つのファミリーを用いて16種類の多様なデータセット上でGLOVを評価した。
論文参考訳（メタデータ） (2024-10-08T15:55:40Z)
Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文参考訳（メタデータ） (2024-10-03T23:40:21Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文参考訳（メタデータ） (2024-05-22T16:25:03Z)
MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。 VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning) TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文参考訳（メタデータ） (2024-04-08T15:51:21Z)
Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文参考訳（メタデータ） (2023-06-01T07:19:28Z)
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。 MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文参考訳（メタデータ） (2023-05-24T11:06:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。