論文の概要: Exploring the Transferability of Visual Prompting for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2404.11207v1
- Date: Wed, 17 Apr 2024 09:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:35:31.433707
- Title: Exploring the Transferability of Visual Prompting for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおける視覚プロンプトの伝達可能性の検討
- Authors: Yichi Zhang, Yinpeng Dong, Siyuan Zhang, Tianzan Min, Hang Su, Jun Zhu,
- Abstract要約: Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
- 参考スコア(独自算出の注目度): 47.162575147632396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Multimodal Large Language Models (MLLMs) have demonstrated promising versatile capabilities, their performance is still inferior to specialized models on downstream tasks, which makes adaptation necessary to enhance their utility. However, fine-tuning methods require independent training for every model, leading to huge computation and memory overheads. In this paper, we propose a novel setting where we aim to improve the performance of diverse MLLMs with a group of shared parameters optimized for a downstream task. To achieve this, we propose Transferable Visual Prompting (TVP), a simple and effective approach to generate visual prompts that can transfer to different models and improve their performance on downstream tasks after trained on only one model. We introduce two strategies to address the issue of cross-model feature corruption of existing visual prompting methods and enhance the transferability of the learned prompts, including 1) Feature Consistency Alignment: which imposes constraints to the prompted feature changes to maintain task-agnostic knowledge; 2) Task Semantics Enrichment: which encourages the prompted images to contain richer task-specific semantics with language guidance. We validate the effectiveness of TVP through extensive experiments with 6 modern MLLMs on a wide variety of tasks ranging from object recognition and counting to multimodal reasoning and hallucination correction.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は有望な汎用能力を示しているが、その性能は下流タスクの特殊モデルよりも劣っている。
しかし、微調整法は全てのモデルに対して独立した訓練を必要とするため、膨大な計算とメモリオーバーヘッドが生じる。
本稿では,下流タスクに最適化された共有パラメータ群を用いて,多様なMLLMの性能向上を目的とした,新しい設定を提案する。
そこで本研究では,異なるモデルに転送可能な視覚的プロンプトを簡易かつ効果的に生成し,一つのモデルでトレーニングした後の下流タスクの性能向上を図ることを目的とした,Transferable Visual Prompting (TVP)を提案する。
既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処する2つの戦略を導入し、学習したプロンプトの伝達可能性を高める。
1) 機能整合性アライメント:タスク非依存の知識を維持するため,引き起こされた機能変更に制約を課す。
2)タスクセマンティック・エンリッチメント: よりリッチなタスク固有のセマンティクスを言語指導に含めるように促す。
対象認識やカウント,マルチモーダル推論や幻覚補正など,さまざまなタスクにおいて,最新のMLLMを6つ併用した広範囲な実験により,TVPの有効性を検証した。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Meta-Task Prompting Elicits Embedding from Large Language Models [57.50329659098592]
本稿では,新しい教師なし埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを提案する。
モデル微調整やタスク固有のエンジニアリングを必要とせずに、大規模言語モデルから高品質な文の埋め込みを生成する。
実験により, 各種メタタスクから平均化された埋め込みは, セマンティックテキスト類似度ベンチマーク上での競合性能を示すことを示した。
本研究は, 埋込抽出のための多用途, 資源効率のよい手法を提供する, 埋込生成のための新しいスケーリング法則を示唆する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap
for Prompt-Based Large Language Models and Beyond [18.476364176960868]
既存のタスク埋め込みメソッドは、微調整されたタスク固有の言語モデルに依存している。
本稿では,様々なモデルからタスク埋め込みを調和させる統合タスク埋め込み(FUTE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T13:13:31Z) - LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。
LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [18.100947750831885]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks [38.43269863509866]
パラメータ効率のよい微調整をいかに行うかは、素早い移動学習と展開においてかなり重要になっている。
我々は、純粋言語とV&Lタスクの両方で効果的に機能する新しいパラメータ効率変換学習フレームワークを設計する。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現している。
論文 参考訳(メタデータ) (2022-03-08T06:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。