論文の概要: UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain Retrieval
- arxiv url: http://arxiv.org/abs/2412.10680v1
- Date: Sat, 14 Dec 2024 04:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:13.976258
- Title: UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain Retrieval
- Title(参考訳): UCDR-Adapter:Universal Cross-Domain Retrievalのための事前学習型ビジョンランゲージモデルの適応を探る
- Authors: Haoyu Jiang, Zhi-Qi Cheng, Gabriel Moreira, Jiawen Zhu, Jingdong Sun, Bukun Ren, Jun-Yan He, Qi Dai, Xian-Sheng Hua,
- Abstract要約: Universal Cross-Domain Retrieval (UCDR)は、意味ラベルなしで、見えないドメインやクラスから関連するイメージを検索する。
本稿では,プリトレーニングモデルと動的プロンプト生成を併用したUCDR-Adapterを提案する。
- 参考スコア(独自算出の注目度): 36.64936080387957
- License:
- Abstract: Universal Cross-Domain Retrieval (UCDR) retrieves relevant images from unseen domains and classes without semantic labels, ensuring robust generalization. Existing methods commonly employ prompt tuning with pre-trained vision-language models but are inherently limited by static prompts, reducing adaptability. We propose UCDR-Adapter, which enhances pre-trained models with adapters and dynamic prompt generation through a two-phase training strategy. First, Source Adapter Learning integrates class semantics with domain-specific visual knowledge using a Learnable Textual Semantic Template and optimizes Class and Domain Prompts via momentum updates and dual loss functions for robust alignment. Second, Target Prompt Generation creates dynamic prompts by attending to masked source prompts, enabling seamless adaptation to unseen domains and classes. Unlike prior approaches, UCDR-Adapter dynamically adapts to evolving data distributions, enhancing both flexibility and generalization. During inference, only the image branch and generated prompts are used, eliminating reliance on textual inputs for highly efficient retrieval. Extensive benchmark experiments show that UCDR-Adapter consistently outperforms ProS in most cases and other state-of-the-art methods on UCDR, U(c)CDR, and U(d)CDR settings.
- Abstract(参考訳): Universal Cross-Domain Retrieval (UCDR)は、セマンティックラベルのない未確認領域やクラスから関連画像を取得し、堅牢な一般化を保証する。
既存の手法では、事前訓練された視覚言語モデルによるプロンプトチューニングが一般的であるが、本質的に静的プロンプトによって制限され、適応性が低下する。
UCDR-Adapterは,2段階の学習戦略により,アダプタを用いた事前学習モデルと動的プロンプト生成を向上する。
Source Adapter Learningは、Learningable Textual Semantic Templateを使用して、クラスセマンティクスとドメイン固有の視覚知識を統合し、モーメント更新とロバストアライメントのための二重損失関数を介して、クラスとドメインプロンプトを最適化する。
第二に、Target Prompt Generationは、マスクされたソースプロンプトへの参加によって動的プロンプトを生成し、目に見えないドメインやクラスへのシームレスな適応を可能にする。
従来のアプローチとは異なり、UCDR-Adapterはデータ分散の進化に動的に対応し、柔軟性と一般化の両方を向上する。
推論中は、画像分岐と生成されたプロンプトのみを使用し、テキスト入力への依存を無くし、高効率な検索を行う。
広範囲なベンチマーク実験により、UCDR-Adapterは、ほとんどのケースでProSを一貫して上回り、UCDR, Uにおける他の最先端手法よりも優れていることが示された。
(c)CDR、U
(d)CDR設定。
関連論文リスト
- CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - ProS: Prompting-to-simulate Generalized knowledge for Universal
Cross-Domain Retrieval [123.51277978744677]
textbfPrompting-to-textbfSimulate (ProS) を提案し,Universal Cross-Domain Retrieval (UCDR) にプロンプトチューニングを適用する。
ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。
本手法は過剰なパラメータを伴わずに新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T14:39:11Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z) - Refign: Align and Refine for Adaptation of Semantic Segmentation to
Adverse Conditions [78.71745819446176]
Refignは、ドメイン間の通信を利用する自己学習ベースのUDAメソッドへの汎用的な拡張である。
Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。
このアプローチでは、追加のトレーニングパラメータや、トレーニングのみの計算オーバーヘッドの最小化は導入されず、任意の自己学習ベースのUDAメソッドを改善するためにドロップイン拡張として使用することができる。
論文 参考訳(メタデータ) (2022-07-14T11:30:38Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。