論文の概要: Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction
- arxiv url: http://arxiv.org/abs/2303.09792v2
- Date: Mon, 2 Oct 2023 03:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 20:10:23.940398
- Title: Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction
- Title(参考訳): ドメイン適応ディエンス予測のためのスパースビジュアルプロンプトの探索
- Authors: Senqiao Yang, Jiarui Wu, Jiaming Liu, Xiaoqi Li, Qizhe Zhang, Mingjie
Pan, Yulu Gan, Zehui Chen, Shanghang Zhang
- Abstract要約: 本稿では,画像レベルのプロンプトに最小限のトレーニング可能なパラメータを格納し,入力のより空間的な情報を予約する,Sparse Visual Domain Prompts (SVDP) アプローチを提案する。
提案手法は, セマンティックセグメンテーションと深度推定の両タスクにおいて, 最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 23.728591258962737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual prompts have provided an efficient manner in addressing visual
cross-domain problems. In previous works, Visual Domain Prompt (VDP) first
introduces domain prompts to tackle the classification Test-Time Adaptation
(TTA) problem by warping image-level prompts on the input and fine-tuning
prompts for each target domain. However, since the image-level prompts mask out
continuous spatial details in the prompt-allocated region, it will suffer from
inaccurate contextual information and limited domain knowledge extraction,
particularly when dealing with dense prediction TTA problems. To overcome these
challenges, we propose a novel Sparse Visual Domain Prompts (SVDP) approach,
which holds minimal trainable parameters (e.g., 0.1\%) in the image-level
prompt and reserves more spatial information of the input. To better apply SVDP
in extracting domain-specific knowledge, we introduce the Domain Prompt
Placement (DPP) method to adaptively allocates trainable parameters of SVDP on
the pixels with large distribution shifts. Furthermore, recognizing that each
target domain sample exhibits a unique domain shift, we design Domain Prompt
Updating (DPU) strategy to optimize prompt parameters differently for each
sample, facilitating efficient adaptation to the target domain. Extensive
experiments were conducted on widely-used TTA and continual TTA benchmarks, and
our proposed method achieves state-of-the-art performance in both semantic
segmentation and depth estimation tasks.
- Abstract(参考訳): 視覚的プロンプトは、視覚的クロスドメイン問題に対処する効果的な方法を提供している。
以前の作品では、visual domain prompt (vdp) がまずドメインプロンプトを導入し、各ターゲットドメインに対する画像レベルのプロンプトと微調整プロンプトを警告することで、分類テスト時間適応(tta)問題に取り組む。
しかし、画像レベルのプロンプトは、プロンプト配置された領域における連続的な空間的詳細をマスクするので、特に密集した予測TTA問題を扱う場合、コンテキスト情報の正確さやドメイン知識の抽出に悩まされる。
これらの課題を克服するために,画像レベルのプロンプトに最小のトレーニング可能なパラメータ(0.1\%など)を保持し,入力の空間情報を保持する新しいスパースビジュアルドメインプロンプト(svdp)アプローチを提案する。
ドメイン固有知識の抽出にSVDPをよりよく適用するために、大きな分布シフトを持つ画素上でSVDPのトレーニング可能なパラメータを適応的に割り当てるDomain Prompt Placement (DPP)法を導入する。
さらに、各対象ドメインサンプルが独自のドメインシフトを示すことを認識して、各サンプルに対してプロンプトパラメータを最適化し、ターゲットドメインへの効率的な適応を容易にするドメインプロンプト更新(DPU)戦略を設計する。
広範に使用されているTTAおよび連続TTAベンチマークを用いて実験を行い,提案手法はセマンティックセグメンテーションと深度推定の両タスクにおいて最先端の性能を実現する。
関連論文リスト
- OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation [8.425690424016986]
視覚変換器(ViT)は、表現の学習において顕著な能力を示したが、未知の領域に適用した場合、その性能は損なわれる。
我々のアプローチであるOT-VP(Optimal Transport-guided Test-Time Visual Prompting)は、テスト時の迅速な学習を活用して、ターゲットドメインとソースドメインの整合を図り、これらの問題に対処する。
OT-VPは、学習したプロンプトトークンが4つしかなく、3つのスタイリスティックデータセットで最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2024-06-12T18:30:03Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - PM-DETR: Domain Adaptive Prompt Memory for Object Detection with
Transformers [25.812325027602252]
トランスフォーマーベースの検出器(DETR)は、エンドツーエンドのオブジェクト検出に顕著な性能を示した。
DETRを異なるデータ分散に転送すると、パフォーマンスが大幅に低下する可能性がある。
本稿では,検出変圧器を異なる分布に適応させるための階層型Prompt Domain Memory (PDM)を提案する。
論文 参考訳(メタデータ) (2023-07-01T12:02:24Z) - Explicit Visual Prompting for Universal Foreground Segmentations [55.51869354956533]
我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。
我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。
本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
論文 参考訳(メタデータ) (2023-05-29T11:05:01Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - Decorate the Newcomers: Visual Domain Prompt for Continual Test Time
Adaptation [14.473807945791132]
Continual Test-Time Adaptation (CTTA) は、ソースデータにアクセスすることなく、ラベルなしのターゲットドメインを継続的に変更することを目的としている。
そこで本論文では,NLPにおける素早い学習によって動機づけられた画像レベルの視覚領域プロンプトを,ソースモデルパラメータを凍結させながら学習することを提案する。
論文 参考訳(メタデータ) (2022-12-08T08:56:02Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。