論文の概要: UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain Retrieval
- arxiv url: http://arxiv.org/abs/2412.10680v1
- Date: Sat, 14 Dec 2024 04:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:59.752275
- Title: UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain Retrieval
- Title(参考訳): UCDR-Adapter:Universal Cross-Domain Retrievalのための事前学習型ビジョンランゲージモデルの適応を探る
- Authors: Haoyu Jiang, Zhi-Qi Cheng, Gabriel Moreira, Jiawen Zhu, Jingdong Sun, Bukun Ren, Jun-Yan He, Qi Dai, Xian-Sheng Hua,
- Abstract要約: Universal Cross-Domain Retrieval (UCDR)は、意味ラベルなしで、見えないドメインやクラスから関連するイメージを検索する。
本稿では,プリトレーニングモデルと動的プロンプト生成を併用したUCDR-Adapterを提案する。
- 参考スコア(独自算出の注目度): 36.64936080387957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal Cross-Domain Retrieval (UCDR) retrieves relevant images from unseen domains and classes without semantic labels, ensuring robust generalization. Existing methods commonly employ prompt tuning with pre-trained vision-language models but are inherently limited by static prompts, reducing adaptability. We propose UCDR-Adapter, which enhances pre-trained models with adapters and dynamic prompt generation through a two-phase training strategy. First, Source Adapter Learning integrates class semantics with domain-specific visual knowledge using a Learnable Textual Semantic Template and optimizes Class and Domain Prompts via momentum updates and dual loss functions for robust alignment. Second, Target Prompt Generation creates dynamic prompts by attending to masked source prompts, enabling seamless adaptation to unseen domains and classes. Unlike prior approaches, UCDR-Adapter dynamically adapts to evolving data distributions, enhancing both flexibility and generalization. During inference, only the image branch and generated prompts are used, eliminating reliance on textual inputs for highly efficient retrieval. Extensive benchmark experiments show that UCDR-Adapter consistently outperforms ProS in most cases and other state-of-the-art methods on UCDR, U(c)CDR, and U(d)CDR settings.
- Abstract(参考訳): Universal Cross-Domain Retrieval (UCDR)は、セマンティックラベルのない未確認領域やクラスから関連画像を取得し、堅牢な一般化を保証する。
既存の手法では、事前訓練された視覚言語モデルによるプロンプトチューニングが一般的であるが、本質的に静的プロンプトによって制限され、適応性が低下する。
UCDR-Adapterは,2段階の学習戦略により,アダプタを用いた事前学習モデルと動的プロンプト生成を向上する。
Source Adapter Learningは、Learningable Textual Semantic Templateを使用して、クラスセマンティクスとドメイン固有の視覚知識を統合し、モーメント更新とロバストアライメントのための二重損失関数を介して、クラスとドメインプロンプトを最適化する。
第二に、Target Prompt Generationは、マスクされたソースプロンプトへの参加によって動的プロンプトを生成し、目に見えないドメインやクラスへのシームレスな適応を可能にする。
従来のアプローチとは異なり、UCDR-Adapterはデータ分散の進化に動的に対応し、柔軟性と一般化の両方を向上する。
推論中は、画像分岐と生成されたプロンプトのみを使用し、テキスト入力への依存を無くし、高効率な検索を行う。
広範囲なベンチマーク実験により、UCDR-Adapterは、ほとんどのケースでProSを一貫して上回り、UCDR, Uにおける他の最先端手法よりも優れていることが示された。
(c)CDR、U
(d)CDR設定。
関連論文リスト
- CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval [22.01591564940522]
モデル一般化能力を高めるために,クロスモーダル適応メタラーニング(CAMeL)に基づくドメインに依存しない事前学習フレームワークを提案する。
特に,現実シナリオの多様性と複雑さを反映した一連のタスクを開発する。
提案手法は,実世界のベンチマークにおける既存手法を超越するだけでなく,ロバスト性やスケーラビリティも示す。
論文 参考訳(メタデータ) (2025-04-26T03:26:30Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。
本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries [2.306164598536725]
本稿では,学習済みのVLMを自然言語クエリに迅速に適応する新しいフレームワークを提案する。
VLMの機能をクエリに関連するセマンティッククラスと整合させるために、前回のデプロイメントで収集された不正なデータを使用します。
また、実際のデータを適応するために使用する場合、クエリと無関係なオブジェクトをどのように扱うべきかについても検討する。
論文 参考訳(メタデータ) (2025-02-26T01:07:28Z) - ProS: Prompting-to-simulate Generalized knowledge for Universal
Cross-Domain Retrieval [123.51277978744677]
textbfPrompting-to-textbfSimulate (ProS) を提案し,Universal Cross-Domain Retrieval (UCDR) にプロンプトチューニングを適用する。
ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。
本手法は過剰なパラメータを伴わずに新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T14:39:11Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Refign: Align and Refine for Adaptation of Semantic Segmentation to
Adverse Conditions [78.71745819446176]
Refignは、ドメイン間の通信を利用する自己学習ベースのUDAメソッドへの汎用的な拡張である。
Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。
このアプローチでは、追加のトレーニングパラメータや、トレーニングのみの計算オーバーヘッドの最小化は導入されず、任意の自己学習ベースのUDAメソッドを改善するためにドロップイン拡張として使用することができる。
論文 参考訳(メタデータ) (2022-07-14T11:30:38Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。