論文の概要: Prompt Vision Transformer for Domain Generalization
- arxiv url: http://arxiv.org/abs/2208.08914v1
- Date: Thu, 18 Aug 2022 15:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:53:01.538550
- Title: Prompt Vision Transformer for Domain Generalization
- Title(参考訳): 領域一般化のためのプロンプトビジョントランスフォーマ
- Authors: Zangwei Zheng, Xiangyu Yue, Kai Wang, Yang You
- Abstract要約: 本稿では,ドメインプロンプトにソースドメインの知識を組み込んで,対象ドメインの予測を行うために,素早い学習に基づくDoPromptを提案する。
提案手法は平均精度が1.4%向上し,ViTバックボーンを用いた最先端アルゴリズムの3.5倍の精度向上を実現している。
- 参考スコア(独自算出の注目度): 15.635465230507132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though vision transformers (ViTs) have exhibited impressive ability for
representation learning, we empirically find that they cannot generalize well
to unseen domains with previous domain generalization algorithms. In this
paper, we propose a novel approach DoPrompt based on prompt learning to embed
the knowledge of source domains in domain prompts for target domain prediction.
Specifically, domain prompts are prepended before ViT input tokens from the
corresponding source domain. Each domain prompt learns domain-specific
knowledge efficiently since it is optimized only for one domain. Meanwhile, we
train a prompt adapter to produce a suitable prompt for each input image based
on the learned source domain prompts. At test time, the adapted prompt
generated by the prompt adapter can exploit the similarity between the feature
of the out-of-domain image and source domains to properly integrate the source
domain knowledge. Extensive experiments are conducted on four benchmark
datasets. Our approach achieves 1.4% improvements in the averaged accuracy,
which is 3.5 times the improvement of the state-of-the-art algorithm with a ViT
backbone.
- Abstract(参考訳): 視覚変換器 (ViT) は, 表現学習の優れた能力を示したが, 従来の領域一般化アルゴリズムではよく見えない領域に一般化できない。
本稿では,対象領域予測のために,ソース領域の知識をドメインプロンプトに埋め込むためのプロンプト学習に基づく新しい手法であるdopromptを提案する。
具体的には、ドメインプロンプトは対応するソースドメインからのViT入力トークンの前にプリペアされる。
各ドメインのプロンプトはドメイン固有の知識を効率的に学習する。
一方、プロンプトアダプタをトレーニングして、学習したソースドメインプロンプトに基づいて、入力画像毎に適切なプロンプトを生成する。
テスト時にプロンプトアダプタによって生成された適応プロンプトは、ソースドメインの知識を適切に統合するために、ドメイン外イメージとソースドメインの機能の類似性を利用することができる。
4つのベンチマークデータセットで大規模な実験を行う。
提案手法は平均精度が1.4%向上し,vitバックボーンを用いた最先端アルゴリズムの3.5倍向上した。
関連論文リスト
- PromptTA: Prompt-driven Text Adapter for Source-free Domain Generalization [26.573088214233955]
ソースフリードメイン一般化(SFDG)は、ソースドメインデータにアクセスせずにターゲットドメインにモデルを適用するという課題に取り組む。
SFDGの最近の進歩は、主にCLIPのような視覚言語モデルのテキストモダリティの活用に焦点を当てている。
Prompt-Driven Text Adapter (PromptTA) 手法を提案する。この手法は,スタイル特徴の分布をより正確に把握し,ドメイン知識の網羅性を確保するために再サンプリングを利用する。
論文 参考訳(メタデータ) (2024-09-21T15:02:13Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Domain Invariant Masked Autoencoders for Self-supervised Learning from
Multi-domains [73.54897096088149]
マルチドメインからの自己教師型学習のためのドメイン不変のMasked AutoEncoder (DiMAE)を提案する。
中心となる考え方は、入力画像を異なるドメインからのスタイルノイズで拡張し、拡張イメージの埋め込みからイメージを再構築することである。
PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。
論文 参考訳(メタデータ) (2022-05-10T09:49:40Z) - Exploiting Both Domain-specific and Invariant Knowledge via a Win-win
Transformer for Unsupervised Domain Adaptation [14.623272346517794]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。
既存のUDAアプローチのほとんどは、ドメイン不変表現を学習し、2つのドメインにまたがる1つの分類器を共有することによって、知識伝達を可能にする。
我々はWin-Win TRansformerフレームワークを提案し、各ドメインのドメイン固有の知識を別々に探索し、ドメイン間の知識を交換する。
論文 参考訳(メタデータ) (2021-11-25T06:45:07Z) - Dynamically Decoding Source Domain Knowledge For Unseen Domain
Generalization [8.106918528575267]
本稿では,ドメイン一般化のためのソースドメイン知識を動的に復号化するためにトランスフォーマーを適用することを提案する。
提案手法は,領域一般化分野の3つのベンチマークで評価する。
最先端手法との比較により,提案手法が最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-10-06T19:21:24Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - Domain2Vec: Domain Embedding for Unsupervised Domain Adaptation [56.94873619509414]
従来の教師なしドメイン適応は、限られた数のドメイン間の知識伝達を研究する。
本稿では,特徴不整合とグラム行列の連成学習に基づいて,視覚領域のベクトル表現を提供する新しいDomain2Vecモデルを提案する。
我々の埋め込みは、異なるドメイン間の視覚的関係に関する直感と一致するドメイン類似性を予測できることを示した。
論文 参考訳(メタデータ) (2020-07-17T22:05:09Z) - Multi-Domain Spoken Language Understanding Using Domain- and Task-Aware
Parameterization [78.93669377251396]
音声言語理解は、各ドメインでトレーニングデータのセットが利用できる教師付き学習問題として対処されてきた。
既存の1つのアプローチは、ドメイン間の共同トレーニングに共有パラメータを使用して、マルチドメイン学習を行うことによって、この問題を解決する。
本稿では,ドメイン固有モデルパラメータとタスク固有モデルパラメータを用いて,この手法のパラメータ化を改善することを提案する。
論文 参考訳(メタデータ) (2020-04-30T15:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。