論文の概要: Learning to Adapt Frozen CLIP for Few-Shot Test-Time Domain Adaptation
- arxiv url: http://arxiv.org/abs/2506.17307v1
- Date: Wed, 18 Jun 2025 03:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.330915
- Title: Learning to Adapt Frozen CLIP for Few-Shot Test-Time Domain Adaptation
- Title(参考訳): Few-Shot Test-Time Domain Adaptationのための冷凍CLIP適応学習
- Authors: Zhixiang Chi, Li Gu, Huan Liu, Ziqiang Wang, Yanan Wu, Yang Wang, Konstantinos N Plataniotis,
- Abstract要約: テスト時間ドメイン適応(Test-Time Domain Adaptation)は、いくつかの未ラベル例を使用して、テスト時にモデルを特定のドメインに適応することに焦点を当てる。
この研究は、フリーズされたCLIPのデータセット固有の知識を補完するために、入力空間で直接学習を導入する。
- 参考スコア(独自算出の注目度): 37.93085430960873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot Test-Time Domain Adaptation focuses on adapting a model at test time to a specific domain using only a few unlabeled examples, addressing domain shift. Prior methods leverage CLIP's strong out-of-distribution (OOD) abilities by generating domain-specific prompts to guide its generalized, frozen features. However, since downstream datasets are not explicitly seen by CLIP, solely depending on the feature space knowledge is constrained by CLIP's prior knowledge. Notably, when using a less robust backbone like ViT-B/16, performance significantly drops on challenging real-world benchmarks. Departing from the state-of-the-art of inheriting the intrinsic OOD capability of CLIP, this work introduces learning directly on the input space to complement the dataset-specific knowledge for frozen CLIP. Specifically, an independent side branch is attached in parallel with CLIP and enforced to learn exclusive knowledge via revert attention. To better capture the dataset-specific label semantics for downstream adaptation, we propose to enhance the inter-dispersion among text features via greedy text ensemble and refinement. The text and visual features are then progressively fused in a domain-aware manner by a generated domain prompt to adapt toward a specific domain. Extensive experiments show our method's superiority on 5 large-scale benchmarks (WILDS and DomainNet), notably improving over smaller networks like ViT-B/16 with gains of \textbf{+5.1} in F1 for iWildCam and \textbf{+3.1\%} in WC Acc for FMoW.
- Abstract(参考訳): テスト時間ドメイン適応(Test-Time Domain Adaptation)は、テスト時にモデルを特定のドメインに適応することに焦点を当てている。
以前のメソッドでは、ドメイン固有のプロンプトを生成して、一般化されたフリーズ機能をガイドすることで、CLIPの強力なアウト・オブ・ディストリビューション(OOD)能力を活用していた。
しかし、下流データセットはCLIPでは明確には見られないため、機能領域の知識のみに依存するのは、CLIPの以前の知識に制約される。
注目すべきなのは、ViT-B/16のようなより堅牢でないバックボーンを使用する場合、パフォーマンスが現実のベンチマークに大きく低下することだ。
この研究は、CLIPの本質的なOOD機能を継承する最先端技術とは別に、フリーズしたCLIPのデータセット固有の知識を補完するために、入力空間に直接学習を導入する。
具体的には、独立したサイドブランチがCLIPと並行してアタッチされ、リターンアテンションを通じて排他的知識を学ぶために強制される。
下流適応のためのデータセット固有のラベルセマンティクスをよりよく把握するために,グリーディテキストアンサンブルと改良によるテキスト特徴間の分散を強化することを提案する。
テキストと視覚的特徴は、特定のドメインに適応するように生成されたドメインプロンプトによって、ドメインに認識された方法で徐々に融合される。
5つの大規模ベンチマーク(WILDSとDomainNet)では,iWildCamではF1の「textbf{+5.1}」,FMoWでは「textbf{+3.1\%」を,ViT-B/16のような小型ネットワークよりも向上した。
関連論文リスト
- UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models [75.77651291095565]
我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。
この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。
このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
論文 参考訳(メタデータ) (2024-11-11T12:25:02Z) - CLIPArTT: Adaptation of CLIP to New Domains at Test Time [19.0284321951354]
CLIP Adaptation duRing Test-Time(CLIPArTT)を導入する。これは、事前学習された視覚言語モデル(VLM)に対する完全なテスト時間適応(TTA)アプローチである。
提案手法では,複数の予測クラスを1つの新しいテキストプロンプトに集約し,入力を再分類するためにemphpseudoラベルとして使用する,ユニークで最小限の侵襲的なテキストプロンプトチューニング処理を採用している。
以上の結果から,新たなトランスフォーメーションやトレーニング可能なモジュールを必要とせずに,CLIPArTTは非破損データセット間で動的にパフォーマンスを向上することがわかった。
論文 参考訳(メタデータ) (2024-05-01T07:24:30Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - AD-CLIP: Adapting Domains in Prompt Space Using CLIP [11.836764044083257]
ドメインに依存しないCLIPのプロンプト学習戦略であるtextscAD-CLIPを導入する。
我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。
3つのベンチマークDAデータセットに対する実験により,既存の文献と比較して,textscAD-CLIPの有効性が示された。
論文 参考訳(メタデータ) (2023-08-10T15:58:28Z) - P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。
本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Self-Challenging Improves Cross-Domain Generalization [81.99554996975372]
畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することにより、画像分類を行う。
ドメイン外データに対するCNNの一般化を著しく改善する簡単なトレーニングである自己整合表現(RSC)を導入する。
RSCはトレーニングデータ上で活性化される主要な機能に対して反復的に挑戦し、ラベルと相関する残りの機能を有効にするようネットワークに強制する。
論文 参考訳(メタデータ) (2020-07-05T21:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。