論文の概要: Prompt Tuning with Soft Context Sharing for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2208.13474v1
- Date: Mon, 29 Aug 2022 10:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:03:17.731652
- Title: Prompt Tuning with Soft Context Sharing for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのソフトコンテキスト共有によるプロンプトチューニング
- Authors: Kun Ding and Ying Wang and Pengzhang Liu and Qiang Yu and Haojian
Zhang and Shiming Xiang and Chunhong Pan
- Abstract要約: 本稿では,複数目的の複数ショットタスクに対して,事前学習した視覚言語モデルを同時に微調整する手法を提案する。
実験では、SoftCPTは、代表的なシングルタスクプロンプトチューニング手法であるCoOpを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 56.628198024857056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have recently shown great potential on many computer
vision tasks. Meanwhile, prior work demonstrates prompt tuning designed for
vision-language models could acquire superior performance on few-shot image
recognition compared to linear probe, a strong baseline. In real-world
applications, many few-shot tasks are correlated, particularly in a specialized
area. However, such information is ignored by previous work. Inspired by the
fact that modeling task relationships by multi-task learning can usually boost
performance, we propose a novel method SoftCPT (Soft Context Sharing for Prompt
Tuning) to fine-tune pre-trained vision-language models on multiple target
few-shot tasks, simultaneously. Specifically, we design a task-shared meta
network to generate prompt vector for each task using pre-defined task name
together with a learnable meta prompt as input. As such, the prompt vectors of
all tasks will be shared in a soft manner. The parameters of this shared meta
network as well as the meta prompt vector are tuned on the joint training set
of all target tasks. Extensive experiments on three multi-task few-shot
datasets show that SoftCPT outperforms the representative single-task prompt
tuning method CoOp [78] by a large margin, implying the effectiveness of
multi-task learning in vision-language prompt tuning. The source code and data
will be made publicly available.
- Abstract(参考訳): 視覚言語モデルは最近、多くのコンピュータビジョンタスクで大きな可能性を示しています。
一方で、視覚言語モデル用に設計されたプロンプトチューニングは、強力なベースラインであるリニアプローブと比較して、少数ショット画像認識において優れたパフォーマンスを得ることができる。
実世界のアプリケーションでは、特に専門分野において、多くのショットタスクが相関している。
しかし、この情報は以前の作品では無視されている。
マルチタスク学習によるタスク関係のモデル化は、通常、性能を高めることができるという事実に着想を得て、複数目標の複数ショットタスクにおいて、事前学習された視覚言語モデルを微調整するためのSoftCPT(Soft Context Sharing for Prompt Tuning)を提案する。
具体的には,事前定義されたタスク名と学習可能なメタプロンプトを入力として,タスク毎にプロンプトベクトルを生成するタスク共有メタネットワークを設計する。
したがって、すべてのタスクのプロンプトベクトルは、ソフトな方法で共有される。
この共有メタネットワークのパラメータとメタプロンプトベクトルは、全ての目標タスクのジョイントトレーニングセットに調整される。
3つのマルチタスク・マルチショット・データセットの大規模な実験により、SoftCPTは代表的なシングルタスク・プロンプト・チューニング法であるCoOp[78]を大きなマージンで上回り、視覚言語・プロンプト・チューニングにおけるマルチタスク学習の有効性を示している。
ソースコードとデータは公開される予定だ。
関連論文リスト
- Jack of All Tasks, Master of Many: Designing General-purpose
Coarse-to-Fine Vision-Language Model [87.01213887685952]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning [43.639430661322585]
マルチタスク・プロンプト・チューニング(MPT)を提案する。
MPTは複数のタスク固有のソースプロンプトから知識を抽出することで単一の転送可能なプロンプトを学習する。
次に、この共有プロンプトに対する乗算的低ランク更新を学習し、各下流ターゲットタスクに効率よく適応する。
論文 参考訳(メタデータ) (2023-03-06T03:25:59Z) - Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T18:41:44Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。