論文の概要: Multitask Vision-Language Prompt Tuning
- arxiv url: http://arxiv.org/abs/2211.11720v2
- Date: Tue, 22 Nov 2022 07:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:08:05.374275
- Title: Multitask Vision-Language Prompt Tuning
- Title(参考訳): マルチタスク視覚言語プロンプトチューニング
- Authors: Sheng Shen, Shijia Yang, Tianjun Zhang, Bohan Zhai, Joseph E.
Gonzalez, Kurt Keutzer, Trevor Darrell
- Abstract要約: マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
- 参考スコア(独自算出の注目度): 103.5967011236282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt Tuning, conditioning on task-specific learned prompt vectors, has
emerged as a data-efficient and parameter-efficient method for adapting large
pretrained vision-language models to multiple downstream tasks. However,
existing approaches usually consider learning prompt vectors for each task
independently from scratch, thereby failing to exploit the rich shareable
knowledge across different vision-language tasks. In this paper, we propose
multitask vision-language prompt tuning (MVLPT), which incorporates cross-task
knowledge into prompt tuning for vision-language models. Specifically, (i) we
demonstrate the effectiveness of learning a single transferable prompt from
multiple source tasks to initialize the prompt for each target task; (ii) we
show many target tasks can benefit each other from sharing prompt vectors and
thus can be jointly learned via multitask prompt tuning. We benchmark the
proposed MVLPT using three representative prompt tuning methods, namely text
prompt tuning, visual prompt tuning, and the unified vision-language prompt
tuning. Results in 20 vision tasks demonstrate that the proposed approach
outperforms all single-task baseline prompt tuning methods, setting the new
state-of-the-art on the few-shot ELEVATER benchmarks and cross-task
generalization benchmarks. To understand where the cross-task knowledge is most
effective, we also conduct a large-scale study on task transferability with 20
vision tasks in 400 combinations for each prompt tuning method. It shows that
the most performant MVLPT for each prompt tuning method prefers different task
combinations and many tasks can benefit each other, depending on their visual
similarity and label similarity. Code is available at
https://github.com/sIncerass/MVLPT.
- Abstract(参考訳): タスク固有の学習プロンプトベクトルの条件付けであるPrompt Tuningは、大規模な事前学習された視覚言語モデルを複数の下流タスクに適用するためのデータ効率とパラメータ効率の手法として登場した。
しかし、既存のアプローチでは、スクラッチとは独立して各タスクのプロンプトベクトルを学習することを検討しており、異なるビジョン言語タスク間で共有可能な豊富な知識を活用できていない。
本稿では,視覚言語モデルのプロンプトチューニングにクロスタスク知識を組み込んだマルチタスク視覚言語プロンプトチューニング(mvlpt)を提案する。
具体的には
(i)複数のソースタスクから単一の転送可能なプロンプトを学習し、対象タスクごとにプロンプトを初期化する効果を示す。
(ii)プロンプトベクトルを共有することで,複数の対象タスクが相互に利益を享受し,マルチタスクプロンプトチューニングによって協調的に学習できることを示す。
提案するMVLPTを,テキストプロンプトチューニング,視覚プロンプトチューニング,統合視覚言語プロンプトチューニングという3つの代表的プロンプトチューニング手法を用いてベンチマークする。
20のビジョンタスクの結果、提案手法は全単一タスクベースラインのプロンプトチューニング手法より優れており、数ショットのELEVATERベンチマークとクロスタスクの一般化ベンチマークで新しい最先端の設定を行う。
クロスタスクの知識が最も効果的である場所を理解するため、プロンプトチューニング法ごとに20個のビジョンタスクを400個の組み合わせて、タスク転送可能性に関する大規模研究を行う。
その結果,各プロンプトチューニング手法において最も優れたMVLPTは異なるタスクの組み合わせを好んでおり,視覚的類似性やラベルの類似性によって多くのタスクが互いに有利であることがわかった。
コードはhttps://github.com/sIncerass/MVLPTで入手できる。
関連論文リスト
- Enhancing Few-Shot Transfer Learning with Optimized Multi-Task Prompt Tuning through Modular Prompt Composition [0.0]
マルチタスクのプロンプトチューニングは、その固有のモジュラリティと、パラメータ効率のよい転送学習を向上する可能性に対して、かなりの注意を払っている。
本稿では,マルチタスク環境において,対応するプロンプト間の知識伝達を容易にすることで,複数のタスクのパフォーマンスを解析・改善することを目的とする。
論文 参考訳(メタデータ) (2024-08-23T17:01:51Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning [43.639430661322585]
マルチタスク・プロンプト・チューニング(MPT)を提案する。
MPTは複数のタスク固有のソースプロンプトから知識を抽出することで単一の転送可能なプロンプトを学習する。
次に、この共有プロンプトに対する乗算的低ランク更新を学習し、各下流ターゲットタスクに効率よく適応する。
論文 参考訳(メタデータ) (2023-03-06T03:25:59Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Attentional Mixtures of Soft Prompt Tuning for Parameter-efficient
Multi-task Knowledge Sharing [53.399742232323895]
ATTEMPTは、新しいモジュラー、マルチタスク、パラメータ効率の言語モデル(LM)チューニングアプローチである。
異なるタスク間で伝達される知識をソフトプロンプトの混合によって組み合わせ、元のLMをそのまま維持する。
パラメータ効率(例えば、微調整よりも1,600倍少ないパラメータを更新)であり、マルチタスク学習と柔軟な拡張を可能にする。
論文 参考訳(メタデータ) (2022-05-24T10:48:33Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。