論文の概要: Learning Domain Invariant Prompt for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2212.04196v1
- Date: Thu, 8 Dec 2022 11:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:53:01.911429
- Title: Learning Domain Invariant Prompt for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための学習領域不変プロンプト
- Authors: Cairong Zhao, Yubin Wang, Xinyang Jiang, Yifei Shen, Kaitao Song,
Dongsheng Li, Duoqian Miao
- Abstract要約: 本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能なドメイン不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
さらに重要なことは、メタ学習に基づくプロンプトチューニングアルゴリズムを提案し、特定のドメインやクラスでチューニングされたプロンプトを明示的に制約し、他のドメインやクラスで優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 33.16533760444475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning is one of the most effective and trending ways to adapt
powerful vision-language foundation models like CLIP to downstream datasets by
tuning learnable prompt vectors with very few samples. However, although prompt
learning achieves excellent performance over in-domain data, it still faces the
major challenge of generalizing to unseen classes and domains. Some existing
prompt learning methods tackle this issue by adaptively generating different
prompts for different tokens or domains but neglecting the ability of learned
prompts to generalize to unseen domains. In this paper, we propose a novel
prompt learning paradigm that directly generates domain invariant prompt
generalizable to unseen domains, called MetaPrompt. Specifically, a
dual-modality prompt tuning network is proposed to generate prompts for inputs
from both image and text modalities. More importantly, we propose a
meta-learning-based prompt tuning algorithm that explicitly constrains the
prompt tuned on a specific domain or class also to achieve good performance on
another domain or class. Extensive experiments on 11 datasets for base-to-new
generalization and four datasets for domain generalization demonstrate that our
method consistently and significantly outperforms existing methods.
- Abstract(参考訳): プロンプト学習は、CLIPのような強力なビジョン言語基盤モデルを、ごく少数のサンプルで学習可能なプロンプトベクトルをチューニングすることで、下流データセットに適応する最も効果的でトレンドな方法の1つである。
しかし、素早い学習はドメイン内のデータよりも優れたパフォーマンスを達成するが、未確認のクラスやドメインに一般化するという大きな課題に直面している。
いくつかの既存のプロンプト学習方法は、異なるトークンやドメインの異なるプロンプトを適応的に生成することでこの問題に対処するが、未知のドメインに一般化する学習プロンプトの能力を無視する。
本稿では,非知覚領域に一般化可能なドメイン不変プロンプトを直接生成する新しいプロンプト学習パラダイムであるmetapromptを提案する。
具体的には、画像とテキストの両モードから入力のプロンプトを生成するために、デュアルモーダリティ・プロンプト・チューニング・ネットワークを提案する。
さらに重要なことは、メタ学習に基づくプロンプトチューニングアルゴリズムを提案し、特定のドメインやクラスでチューニングされたプロンプトを明示的に制約し、他のドメインやクラスでも優れたパフォーマンスを実現する。
ベース・ツー・ニュー・ジェネライゼーションのための11のデータセットとドメイン・ジェネライゼーションのための4つのデータセットに関する広範な実験は、この手法が既存の手法を一貫して著しく上回っていることを示している。
関連論文リスト
- HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification [10.709573361858613]
Retrieval-enhanced Prompt Learning (RePrompt)
本稿では,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning(RePrompt)を提案する。
RePromptがパフォーマンスを大幅に向上することを示すため,15のビジョンデータセットに対して,数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークを用いた実験を行った。
論文 参考訳(メタデータ) (2023-06-04T03:06:37Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - SwitchPrompt: Learning Domain-Specific Gated Soft Prompts for
Classification in Low-Resource Domains [14.096170976149521]
SwitchPromptは、汎用ドメインからさまざまな低リソースドメインへのデータセットでトレーニングされた言語モデルを適応するための、新しくて軽量なプロンプト手法である。
筆者らは,SwitchPromptを用いた場合の一般領域事前学習言語モデルの有効性を3つのテキスト分類ベンチマークで検証した。
彼らはしばしば、ベースライン・オブ・ザ・アーツ・プロンプト法で訓練されたドメイン固有の手法を最大10.7%の精度で上回っている。
論文 参考訳(メタデータ) (2023-02-14T07:14:08Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。