論文の概要: AD-CLIP: Adapting Domains in Prompt Space Using CLIP
- arxiv url: http://arxiv.org/abs/2308.05659v2
- Date: Mon, 16 Sep 2024 10:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:47:44.940814
- Title: AD-CLIP: Adapting Domains in Prompt Space Using CLIP
- Title(参考訳): AD-CLIP: CLIP を用いたプロンプト空間でのドメイン適応
- Authors: Mainak Singha, Harsh Pal, Ankit Jha, Biplab Banerjee,
- Abstract要約: ドメインに依存しないCLIPのプロンプト学習戦略であるtextscAD-CLIPを導入する。
我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。
3つのベンチマークDAデータセットに対する実験により,既存の文献と比較して,textscAD-CLIPの有効性が示された。
- 参考スコア(独自算出の注目度): 11.836764044083257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep learning models have shown impressive performance on supervised learning tasks, they often struggle to generalize well when the training (source) and test (target) domains differ. Unsupervised domain adaptation (DA) has emerged as a popular solution to this problem. However, current DA techniques rely on visual backbones, which may lack semantic richness. Despite the potential of large-scale vision-language foundation models like CLIP, their effectiveness for DA has yet to be fully explored. To address this gap, we introduce \textsc{AD-CLIP}, a domain-agnostic prompt learning strategy for CLIP that aims to solve the DA problem in the prompt space. We leverage the frozen vision backbone of CLIP to extract both image style (domain) and content information, which we apply to learn prompt tokens. Our prompts are designed to be domain-invariant and class-generalizable, by conditioning prompt learning on image style and content features simultaneously. We use standard supervised contrastive learning in the source domain, while proposing an entropy minimization strategy to align domains in the embedding space given the target domain data. We also consider a scenario where only target domain samples are available during testing, without any source domain data, and propose a cross-domain style mapping network to hallucinate domain-agnostic tokens. Our extensive experiments on three benchmark DA datasets demonstrate the effectiveness of \textsc{AD-CLIP} compared to existing literature. Code is available at \url{https://github.com/mainaksingha01/AD-CLIP}
- Abstract(参考訳): ディープラーニングモデルは教師付き学習タスクに顕著なパフォーマンスを示してきたが、トレーニング(ソース)とテスト(ターゲット)のドメインが異なる場合、よく一般化するのに苦労することが多い。
非教師なしドメイン適応(DA)は、この問題に対する一般的な解決策として現れている。
しかし、現在のDA手法は視覚的なバックボーンに依存しており、セマンティック・リッチネスが欠如している可能性がある。
CLIPのような大規模ヴィジュアル言語基盤モデルの可能性にもかかわらず、DAの有効性はまだ十分に検討されていない。
このギャップに対処するために,CLIPのドメインに依存しないプロンプト学習戦略である \textsc{AD-CLIP} を導入する。
我々はCLIPの凍結した視覚バックボーンを利用して画像スタイル(ドメイン)とコンテンツ情報を抽出し、プロンプトトークンを学習する。
我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。
我々は、ソース領域における標準教師付きコントラスト学習を使用し、対象ドメインデータに与えられた埋め込み空間内のドメインをアライメントするエントロピー最小化戦略を提案する。
また、ソースドメインデータなしで、テスト中にのみ対象ドメインサンプルが利用可能となるシナリオについても検討し、ドメインに依存しないトークンを幻覚するクロスドメインスタイルマッピングネットワークを提案する。
3つのベンチマーク DA データセットに対する広範な実験により,既存の文献と比較して textsc{AD-CLIP} の有効性が示された。
コードは \url{https://github.com/mainaksingha01/AD-CLIP} で入手できる。
関連論文リスト
- Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Domain Adaptive Few-Shot Open-Set Learning [36.39622440120531]
本稿では,DA-FSOS(Domain Adaptive Few-Shot Open Set Recognition)を提案する。
我々のトレーニングアプローチは、DAFOS-NETがターゲットドメインの新しいシナリオにうまく適応できるようにします。
本稿では,Office-Home,mini-ImageNet/CUB,DomainNetデータセットに基づくDA-FSOSの3つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-09-22T12:04:47Z) - MoP-CLIP: A Mixture of Prompt-Tuned CLIP Models for Domain Incremental
Learning [12.737883740101438]
本稿では,プロンプト調整型CLIPモデル(MoP-CLIP)を用いた新しいDIL手法を提案する。
トレーニング段階では、各ドメインの各クラスの特徴分布をモデル化し、個々のテキストと視覚的プロンプトを学習して、特定のドメインに適応させます。
学習した分布は、与えられたテストサンプルが既知のドメインに属しているかどうかを識別し、分類タスクの正しいプロンプトを選択する。
論文 参考訳(メタデータ) (2023-07-11T18:17:50Z) - StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文 参考訳(メタデータ) (2023-02-18T07:36:16Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Classes Matter: A Fine-grained Adversarial Approach to Cross-domain
Semantic Segmentation [95.10255219396109]
クラスレベルの特徴アライメントのための微粒な逆学習戦略を提案する。
ドメイン区別器として機能するだけでなく、クラスレベルでドメインを区別する、きめ細かいドメイン識別器を採用しています。
CCD (Class Center Distance) を用いた解析により, 粒度の細かい対角戦略により, クラスレベルのアライメントが向上することが確認された。
論文 参考訳(メタデータ) (2020-07-17T20:50:59Z) - Spatial Attention Pyramid Network for Unsupervised Domain Adaptation [66.75008386980869]
教師なし領域適応は様々なコンピュータビジョンタスクにおいて重要である。
教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。
我々の手法は最先端の手法に対して大きなマージンで好適に機能する。
論文 参考訳(メタデータ) (2020-03-29T09:03:23Z) - Mind the Gap: Enlarging the Domain Gap in Open Set Domain Adaptation [65.38975706997088]
オープンセットドメイン適応(OSDA)は、ターゲットドメインに未知のクラスが存在することを前提としている。
既存の最先端手法は、より大きなドメインギャップが存在する場合、かなりの性能低下を被ることを示す。
我々は、より大きなドメインギャップに特に対処するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-08T14:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。