論文の概要: Soft Prompt Generation for Domain Generalization
- arxiv url: http://arxiv.org/abs/2404.19286v1
- Date: Tue, 30 Apr 2024 06:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:23:59.518760
- Title: Soft Prompt Generation for Domain Generalization
- Title(参考訳): ドメイン一般化のためのソフトプロンプト生成
- Authors: Shuanghao Bai, Yuedi Zhang, Wanqi Zhou, Zhirong Luan, Badong Chen,
- Abstract要約: 大規模な事前訓練された視覚言語モデル(VLM)は、下流タスクで印象的なゼロショット能力を示している。
下流タスクにVLMをさらに適応させるために、手動で設計したプロンプトを置き換えるソフトプロンプトが提案されている。
本稿では,ドメイン一般化(DG)タスク,すなわち textbfSoft textbfPrompt textbfGeneration (SPG) の簡易かつ効率的な方法を提案する。
- 参考スコア(独自算出の注目度): 13.957351735394683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained vision language models (VLMs) have shown impressive zero-shot ability on downstream tasks with manually designed prompt, which are not optimal for specific domains. To further adapt VLMs to downstream tasks, soft prompt is proposed to replace manually designed prompt, which acts as a learning vector that undergoes fine-tuning based on specific domain data. Prior prompt learning methods primarily learn a fixed prompt and residuled prompt from training samples. However, the learned prompts lack diversity and ignore information about unseen domains, potentially compromising the transferability of the prompts. In this paper, we reframe the prompt learning framework from a generative perspective and propose a simple yet efficient method for the Domain Generalization (DG) task, namely \textbf{S}oft \textbf{P}rompt \textbf{G}eneration (SPG). To the best of our knowledge, we are the first to introduce the generative model into prompt learning in VLMs and explore its potential for producing soft prompts by relying solely on the generative model, ensuring the diversity of prompts. Specifically, SPG consists of a two-stage training phase and an inference phase. During the training phase, we introduce soft prompt labels for each domain, aiming to incorporate the generative model domain knowledge. During the inference phase, the generator of the generative model is employed to obtain instance-specific soft prompts for the unseen target domain. Extensive experiments on five domain generalization benchmarks of three DG tasks demonstrate that our proposed SPG achieves state-of-the-art performance. The code will be available soon.
- Abstract(参考訳): 大規模な事前学習型視覚言語モデル(VLM)は、手動で設計したプロンプトで下流タスクに印象的なゼロショット能力を示しており、特定のドメインには最適ではない。
VLMを下流タスクにさらに適応させるために、ソフトプロンプトは、特定のドメインデータに基づいて微調整を行う学習ベクトルとして機能する手作業で設計されたプロンプトを置き換えることが提案されている。
事前のプロンプト学習方法は、主にトレーニングサンプルから固定されたプロンプトと予約されたプロンプトを学習する。
しかし、学習されたプロンプトは多様性を欠き、未知のドメインに関する情報を無視し、プロンプトの転送可能性に悪影響を及ぼす可能性がある。
本稿では,素早い学習フレームワークを生成的観点から再構成し,ドメイン一般化(DG)タスク,すなわち,textbf{S}oft \textbf{P}rompt \textbf{G}eneration (SPG)を提案する。
我々の知る限りでは、私たちはVLMにおける即興学習に生成モデルを導入し、生成モデルにのみ依存し、プロンプトの多様性を確保することにより、ソフトプロンプトの創出の可能性を探究する最初の人物である。
具体的には、SPGは2段階のトレーニングフェーズと推論フェーズから構成される。
トレーニングフェーズでは,各ドメインに対するソフトプロンプトラベルを導入し,生成モデルドメインの知識を取り入れることを目的とした。
推論フェーズでは、生成モデルのジェネレータを使用して、未知のターゲットドメインに対してインスタンス固有のソフトプロンプトを得る。
3つのDGタスクの5つの領域一般化ベンチマークの大規模な実験により、提案したSPGが最先端の性能を達成することを示す。
コードはまもなく利用可能になる。
関連論文リスト
- Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - ProS: Prompting-to-simulate Generalized knowledge for Universal
Cross-Domain Retrieval [123.51277978744677]
textbfPrompting-to-textbfSimulate (ProS) を提案し,Universal Cross-Domain Retrieval (UCDR) にプロンプトチューニングを適用する。
ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。
本手法は過剰なパラメータを伴わずに新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T14:39:11Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - IDPG: An Instance-Dependent Prompt Generation Method [58.45110542003139]
Prompt tuningは、モデルトレーニング段階で各入力インスタンスにタスク固有のプロンプトを追加する、新しい、効率的なNLP転送学習パラダイムである。
本稿では,各入力インスタンスのプロンプトを生成する条件付きプロンプト生成手法を提案する。
論文 参考訳(メタデータ) (2022-04-09T15:45:27Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。