論文の概要: Prompt Tuning with Soft Context Sharing for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2208.13474v1
- Date: Mon, 29 Aug 2022 10:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:03:17.731652
- Title: Prompt Tuning with Soft Context Sharing for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのソフトコンテキスト共有によるプロンプトチューニング
- Authors: Kun Ding and Ying Wang and Pengzhang Liu and Qiang Yu and Haojian
Zhang and Shiming Xiang and Chunhong Pan
- Abstract要約: 本稿では,複数目的の複数ショットタスクに対して,事前学習した視覚言語モデルを同時に微調整する手法を提案する。
実験では、SoftCPTは、代表的なシングルタスクプロンプトチューニング手法であるCoOpを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 56.628198024857056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have recently shown great potential on many computer
vision tasks. Meanwhile, prior work demonstrates prompt tuning designed for
vision-language models could acquire superior performance on few-shot image
recognition compared to linear probe, a strong baseline. In real-world
applications, many few-shot tasks are correlated, particularly in a specialized
area. However, such information is ignored by previous work. Inspired by the
fact that modeling task relationships by multi-task learning can usually boost
performance, we propose a novel method SoftCPT (Soft Context Sharing for Prompt
Tuning) to fine-tune pre-trained vision-language models on multiple target
few-shot tasks, simultaneously. Specifically, we design a task-shared meta
network to generate prompt vector for each task using pre-defined task name
together with a learnable meta prompt as input. As such, the prompt vectors of
all tasks will be shared in a soft manner. The parameters of this shared meta
network as well as the meta prompt vector are tuned on the joint training set
of all target tasks. Extensive experiments on three multi-task few-shot
datasets show that SoftCPT outperforms the representative single-task prompt
tuning method CoOp [78] by a large margin, implying the effectiveness of
multi-task learning in vision-language prompt tuning. The source code and data
will be made publicly available.
- Abstract(参考訳): 視覚言語モデルは最近、多くのコンピュータビジョンタスクで大きな可能性を示しています。
一方で、視覚言語モデル用に設計されたプロンプトチューニングは、強力なベースラインであるリニアプローブと比較して、少数ショット画像認識において優れたパフォーマンスを得ることができる。
実世界のアプリケーションでは、特に専門分野において、多くのショットタスクが相関している。
しかし、この情報は以前の作品では無視されている。
マルチタスク学習によるタスク関係のモデル化は、通常、性能を高めることができるという事実に着想を得て、複数目標の複数ショットタスクにおいて、事前学習された視覚言語モデルを微調整するためのSoftCPT(Soft Context Sharing for Prompt Tuning)を提案する。
具体的には,事前定義されたタスク名と学習可能なメタプロンプトを入力として,タスク毎にプロンプトベクトルを生成するタスク共有メタネットワークを設計する。
したがって、すべてのタスクのプロンプトベクトルは、ソフトな方法で共有される。
この共有メタネットワークのパラメータとメタプロンプトベクトルは、全ての目標タスクのジョイントトレーニングセットに調整される。
3つのマルチタスク・マルチショット・データセットの大規模な実験により、SoftCPTは代表的なシングルタスク・プロンプト・チューニング法であるCoOp[78]を大きなマージンで上回り、視覚言語・プロンプト・チューニングにおけるマルチタスク学習の有効性を示している。
ソースコードとデータは公開される予定だ。
関連論文リスト
- UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - TransPrompt v2: A Transferable Prompting Framework for Cross-task Text
Classification [37.824031151922604]
そこで本研究では,テキスト分類タスク間の数ショット学習を実現するための,トランスプロンプトv2を提案する。
類似したタスクを学習するために、メタラーナーを訓練するためにマルチタスクメタ知識獲得(MMA)手順を用いる。
遠隔タスクを学習するために、タスクタイプ記述をプロンプトに注入し、タイプ内およびタイプ間プロンプト埋め込みをキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T04:16:57Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T18:41:44Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。