論文の概要: Learning Domain Invariant Prompt for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2212.04196v2
- Date: Fri, 31 Mar 2023 04:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:59:54.342171
- Title: Learning Domain Invariant Prompt for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための学習領域不変プロンプト
- Authors: Cairong Zhao, Yubin Wang, Xinyang Jiang, Yifei Shen, Kaitao Song,
Dongsheng Li, and Duoqian Miao
- Abstract要約: 本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
- 参考スコア(独自算出の注目度): 31.581652862478965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning is one of the most effective and trending ways to adapt
powerful vision-language foundation models like CLIP to downstream datasets by
tuning learnable prompt vectors with very few samples. However, although prompt
learning achieves excellent performance over in-domain data, it still faces the
major challenge of generalizing to unseen classes and domains. Some existing
prompt learning methods tackle this issue by adaptively generating different
prompts for different tokens or domains but neglecting the ability of learned
prompts to generalize to unseen domains. In this paper, we propose a novel
prompt learning paradigm that directly generates \emph{domain invariant} prompt
that can be generalized to unseen domains, called MetaPrompt. Specifically, a
dual-modality prompt tuning network is proposed to generate prompts for input
from both image and text modalities. With a novel asymmetric contrastive loss,
the representation from the original pre-trained vision-language model acts as
supervision to enhance the generalization ability of the learned prompt. More
importantly, we propose a meta-learning-based prompt tuning algorithm that
explicitly constrains the task-specific prompt tuned for one domain or class to
also achieve good performance in another domain or class. Extensive experiments
on 11 datasets for base-to-new generalization and 4 datasets for domain
generalization demonstrate that our method consistently and significantly
outperforms existing methods.
- Abstract(参考訳): プロンプト学習は、CLIPのような強力なビジョン言語基盤モデルを、ごく少数のサンプルで学習可能なプロンプトベクトルをチューニングすることで、下流データセットに適応する最も効果的でトレンドな方法の1つである。
しかし、素早い学習はドメイン内のデータよりも優れたパフォーマンスを達成するが、未確認のクラスやドメインに一般化するという大きな課題に直面している。
いくつかの既存のプロンプト学習方法は、異なるトークンやドメインの異なるプロンプトを適応的に生成することでこの問題に対処するが、未知のドメインに一般化する学習プロンプトの能力を無視する。
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未知の領域に一般化可能な,emph{ domain invariant}プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
具体的には、画像とテキストの両モードから入力のためのプロンプトを生成するために、デュアルモーダリティ・プロンプト・チューニング・ネットワークを提案する。
新規な非対称的な対照的な損失により、学習したプロンプトの一般化能力を高めるために、訓練済みの視覚言語モデルからの表現が監督される。
さらに、メタ学習に基づくプロンプトチューニングアルゴリズムを提案し、特定のドメインやクラスに対してチューニングされたタスク固有のプロンプトを明示的に制約し、他のドメインやクラスでも優れたパフォーマンスを実現する。
ベース・ツー・ニュー・ジェネライゼーションのための11のデータセットとドメイン・ジェネライゼーションのための4つのデータセットに関する広範な実験は、この手法が既存の手法を一貫して著しく上回っていることを示している。
関連論文リスト
- MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。
本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T03:33:46Z) - StylePrompter: Enhancing Domain Generalization with Test-Time Style Priors [39.695604434738186]
実世界のアプリケーションでは、推論段階でのサンプル分布は、トレーニング段階でのものとしばしば異なる。
本稿では,訓練されたモデルを動的に適応させるために,言語モダリティのスタイルプロンプトを紹介する。
特に,現在の画像のスタイル情報をトークン埋め込み空間に埋め込むように,スタイルプロンサを訓練する。
スタイルトークン埋め込み空間と手作りスタイル正規化のオープンスペース分割により、トレーニング済みのスタイルプロンサが未知のドメインからのデータを効率的に処理できるようになる。
論文 参考訳(メタデータ) (2024-08-17T08:35:43Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - SwitchPrompt: Learning Domain-Specific Gated Soft Prompts for
Classification in Low-Resource Domains [14.096170976149521]
SwitchPromptは、汎用ドメインからさまざまな低リソースドメインへのデータセットでトレーニングされた言語モデルを適応するための、新しくて軽量なプロンプト手法である。
筆者らは,SwitchPromptを用いた場合の一般領域事前学習言語モデルの有効性を3つのテキスト分類ベンチマークで検証した。
彼らはしばしば、ベースライン・オブ・ザ・アーツ・プロンプト法で訓練されたドメイン固有の手法を最大10.7%の精度で上回っている。
論文 参考訳(メタデータ) (2023-02-14T07:14:08Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。