論文の概要: Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization
- arxiv url: http://arxiv.org/abs/2404.00710v1
- Date: Sun, 31 Mar 2024 15:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:11:04.521815
- Title: Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization
- Title(参考訳): 唯一のLacunaである未知のPrompt:オープンドメインの一般化へのCLIPの可能性
- Authors: Mainak Singha, Ankit Jha, Shirsha Bose, Ashwin Nair, Moloud Abdar, Biplab Banerjee,
- Abstract要約: 本稿では、視覚言語モデルCLIPのセマンティックな長所を生かしたODG-CLIPを紹介する。
我々はODGを、既知のカテゴリと新しいカテゴリの両方を包含する多クラス分類課題として概念化している。
我々は,CLIPの視覚的埋め込みの忠実度を高めるために,プロンプト空間から派生したクラス識別的知識で画像を注入する。
- 参考スコア(独自算出の注目度): 12.126495847808803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We delve into Open Domain Generalization (ODG), marked by domain and category shifts between training's labeled source and testing's unlabeled target domains. Existing solutions to ODG face limitations due to constrained generalizations of traditional CNN backbones and errors in detecting target open samples in the absence of prior knowledge. Addressing these pitfalls, we introduce ODG-CLIP, harnessing the semantic prowess of the vision-language model, CLIP. Our framework brings forth three primary innovations: Firstly, distinct from prevailing paradigms, we conceptualize ODG as a multi-class classification challenge encompassing both known and novel categories. Central to our approach is modeling a unique prompt tailored for detecting unknown class samples, and to train this, we employ a readily accessible stable diffusion model, elegantly generating proxy images for the open class. Secondly, aiming for domain-tailored classification (prompt) weights while ensuring a balance of precision and simplicity, we devise a novel visual stylecentric prompt learning mechanism. Finally, we infuse images with class-discriminative knowledge derived from the prompt space to augment the fidelity of CLIP's visual embeddings. We introduce a novel objective to safeguard the continuity of this infused semantic intel across domains, especially for the shared classes. Through rigorous testing on diverse datasets, covering closed and open-set DG contexts, ODG-CLIP demonstrates clear supremacy, consistently outpacing peers with performance boosts between 8%-16%. Code will be available at https://github.com/mainaksingha01/ODG-CLIP.
- Abstract(参考訳): トレーニングのラベル付きソースとテストのラベルなしターゲットドメインの間のドメインとカテゴリのシフトが特徴です。
既存のODGのソリューションは、従来のCNNバックボーンの制約付き一般化と、事前の知識がなければ対象のオープンサンプルを検出する際のエラーにより制限に直面している。
これらの落とし穴に対処するために、視覚言語モデルCLIPのセマンティックな長所を生かしたODG-CLIPを導入する。
まず、広く普及しているパラダイムとは別個に、ODGを既知のカテゴリと新しいカテゴリの両方を包含する多クラス分類課題として概念化します。
提案手法では,未知のクラスサンプルを検出するためのユニークなプロンプトをモデル化し,これを訓練するために,オープンクラスのプロキシイメージをエレガントに生成する,アクセスしやすい安定拡散モデルを用いる。
第二に、精度と単純性のバランスを確保しつつ、ドメインに適した分類(prompt)の重み付けを目指して、新しい視覚スタイル中心の素早い学習機構を考案する。
最後に,CLIPの視覚的埋め込みの忠実度を高めるために,プロンプト空間から派生したクラス識別的知識を画像に注入する。
本稿では,ドメイン間,特に共有クラス間の情報伝達の連続性を保護するための新しい目標を提案する。
クローズドおよびオープンセットのDGコンテキストをカバーする、さまざまなデータセットの厳格なテストを通じて、ODG-CLIPは明確な優位性を示し、パフォーマンスが8%-16%向上したピアを一貫して上回っている。
コードはhttps://github.com/mainaksingha01/ODG-CLIPで入手できる。
関連論文リスト
- In the Era of Prompt Learning with Vision-Language Models [1.060608983034705]
ドメイン一般化のためのドメインに依存しない新しい学習戦略であるtextscStyLIP を紹介する。
StyLIPは、スタイルプロジェクタを使用してドメイン固有のプロンプトトークンを学習することで、CLIPsビジョンエンコーダの視覚スタイルとコンテンツを切り離す。
また,CLIPの凍結視覚バックボーンを利用した非教師なし領域適応(DA)のためのAD-CLIPを提案する。
論文 参考訳(メタデータ) (2024-11-07T17:31:21Z) - CDAD-Net: Bridging Domain Gaps in Generalized Category Discovery [9.505699498746976]
Generalized Category Discovery (GCD)は、既知のクラスと新しいクラスのラベルのないサンプルをクラスタリングするツールである。
本稿では、Across Domain Generalized Category Discovery (AD-GCD)を紹介し、CDAD-NETを治療として提供する。
CDAD-NETは、ラベル付き(ソース)データセットとラベルなし(ターゲット)データセットの両方で、既知の潜在的なクラスサンプルを同期するように設計されている。
実験により、CDAD-NETは既存の文献を8~15%上回り、AD-GCDベンチマークを3つのベンチマークで比較した。
論文 参考訳(メタデータ) (2024-04-08T10:05:24Z) - Learning Class and Domain Augmentations for Single-Source Open-Domain
Generalization [15.338029608652777]
単一オープンソースのオープンソースドメイン一般化(SS-ODG)は、トレーニング中の監督とテスト中の未ラベルの新規ターゲットドメインによるラベル付きソースドメインの課題に対処する。
本稿では,新しいドメインを同時に合成し,擬似オープンサンプルを生成するSODG-Netという新しいフレームワークを提案する。
提案手法は,新しい計量基準を用いて既知のクラス標本のスタイルを多様化することにより一般化を促進する。
論文 参考訳(メタデータ) (2023-11-05T08:53:07Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Upcycling Models under Domain and Category Shift [95.22147885947732]
グローバルかつ局所的なクラスタリング学習技術(GLC)を導入する。
我々は、異なる対象クラス間での区別を実現するために、新しい1-vs-allグローバルクラスタリングアルゴリズムを設計する。
注目すべきは、最も困難なオープンパーティルセットDAシナリオにおいて、GLCは、VisDAベンチマークでUMADを14.8%上回っていることである。
論文 参考訳(メタデータ) (2023-03-13T13:44:04Z) - Self-Paced Learning for Open-Set Domain Adaptation [50.620824701934]
従来のドメイン適応手法は、ソースとターゲットドメインのクラスが同一であると仮定する。
オープンセットドメイン適応(OSDA)は、この制限に対処する。
そこで,本研究では,共通クラスと未知クラスを識別するための自己評価学習に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-10T14:11:09Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Open Set Domain Recognition via Attention-Based GCN and Semantic
Matching Optimization [8.831857715361624]
本研究では,注意に基づくGCNとセマンティックマッチング最適化に基づくエンドツーエンドモデルを提案する。
実験結果から,提案モデルが未知のクラスの画像認識に優れるだけでなく,対象領域の様々な開放性にも適応できることが確認された。
論文 参考訳(メタデータ) (2021-05-11T12:05:36Z) - Exploring Category-Agnostic Clusters for Open-Set Domain Adaptation [138.29273453811945]
本稿では、カテゴリ非依存クラスタ(SE-CC)を対象ドメインのカテゴリ非依存クラスタと組み合わせた、新たなアーキテクチャを提案する。
クラスタリングは、対象ドメイン特有の基盤となるデータ空間構造を明らかにするカテゴリ非依存クラスタを得るために、ラベルなしのターゲットサンプルすべてにわたって実行される。
論文 参考訳(メタデータ) (2020-06-11T16:19:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。