論文の概要: CLAIR: CLIP-Aided Weakly Supervised Zero-Shot Cross-Domain Image Retrieval
- arxiv url: http://arxiv.org/abs/2508.12290v1
- Date: Sun, 17 Aug 2025 08:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.663179
- Title: CLAIR: CLIP-Aided Weakly Supervised Zero-Shot Cross-Domain Image Retrieval
- Title(参考訳): CLAIR:CLIP対応の弱めのゼロショットのクロスドメイン画像検索
- Authors: Chor Boon Tan, Conghui Hu, Gim Hee Lee,
- Abstract要約: 本稿では,CLIPテキストと画像特徴との類似性から,ノイズの多い擬似ラベルを信頼性スコアで洗練するCLAIRを提案する。
また,CLIPテキスト埋め込みのみを用いて,新しいクロスドメインマッピング関数をクローズド形式で学習する。
私たちのCLAIRは、既存の最先端の手法と比較して、一貫して優れたパフォーマンスを示しています。
- 参考スコア(独自算出の注目度): 51.45839347847945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent growth of large foundation models that can easily generate pseudo-labels for huge quantity of unlabeled data makes unsupervised Zero-Shot Cross-Domain Image Retrieval (UZS-CDIR) less relevant. In this paper, we therefore turn our attention to weakly supervised ZS-CDIR (WSZS-CDIR) with noisy pseudo labels generated by large foundation models such as CLIP. To this end, we propose CLAIR to refine the noisy pseudo-labels with a confidence score from the similarity between the CLIP text and image features. Furthermore, we design inter-instance and inter-cluster contrastive losses to encode images into a class-aware latent space, and an inter-domain contrastive loss to alleviate domain discrepancies. We also learn a novel cross-domain mapping function in closed-form, using only CLIP text embeddings to project image features from one domain to another, thereby further aligning the image features for retrieval. Finally, we enhance the zero-shot generalization ability of our CLAIR to handle novel categories by introducing an extra set of learnable prompts. Extensive experiments are carried out using TUBerlin, Sketchy, Quickdraw, and DomainNet zero-shot datasets, where our CLAIR consistently shows superior performance compared to existing state-of-the-art methods.
- Abstract(参考訳): 大量のラベルのないデータに対して擬似ラベルを容易に生成できる大規模基盤モデルの最近の成長により、教師なしゼロショットクロスドメイン画像検索(UZS-CDIR)はそれほど重要ではない。
そこで本稿では,CLIPのような大規模基盤モデルによって生成されるノイズの多い擬似ラベルを持つ弱教師付きZS-CDIR(WSZS-CDIR)に注意を向ける。
そこで本研究では,CLIPテキストと画像特徴の類似性から,ノイズの多い擬似ラベルを信頼性スコアで改良するCLAIRを提案する。
さらに、画像のクラス認識潜在空間へのエンコードのためのインスタンス間およびクラスタ間コントラスト損失を設計し、ドメイン間のコントラスト損失を軽減した。
また、CLIPテキスト埋め込みのみを用いて、新しいクロスドメインマッピング関数をクローズド形式で学習し、画像特徴をあるドメインから別のドメインへ投影することで、検索のための画像特徴をさらに整合させる。
最後に、学習可能なプロンプトの余分なセットを導入することで、新しいカテゴリを扱うためのCLAIRのゼロショット一般化能力を向上する。
TUBerlin、Sketchy、Quickdraw、DomainNetのゼロショットデータセットを使用して大規模な実験を行い、CLAIRは既存の最先端の手法と比べて一貫して優れたパフォーマンスを示している。
関連論文リスト
- Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - CLIP-Guided Source-Free Object Detection in Aerial Images [17.26407623526735]
高解像度の空中画像は、しばしばかなりのストレージスペースを必要とし、一般にはアクセスできない。
そこで本研究では,これらの課題に対処する新しいSFOD法を提案する。
自己学習における雑音ラベルを緩和するために,コントラスト言語画像事前学習(CLIP)を用いて擬似ラベルの生成を誘導する。
CLIPのゼロショット分類機能を利用することで、そのスコアを予測された元のバウンディングボックスに集約し、擬似ラベルの洗練されたスコアを得ることができる。
論文 参考訳(メタデータ) (2024-01-10T14:03:05Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Zero-Shot Sketch Based Image Retrieval using Graph Transformer [18.00165431469872]
本稿では,ZS-SBIRタスクを解くためのゼロショットスケッチベース画像検索(GTZSR)フレームワークを提案する。
視覚的特徴間の領域ギャップを埋めるために,学習領域共有空間における画像とスケッチ間のワッサーシュタイン距離を最小化することを提案する。
また、トレーニングセット内の他のすべてのクラスのドメインギャップに対して、1つのクラスのドメインギャップをブリッジすることで、2つの視覚領域を更に整合させる新しい互換性損失を提案する。
論文 参考訳(メタデータ) (2022-01-25T09:02:39Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - ACNet: Approaching-and-Centralizing Network for Zero-Shot Sketch-Based
Image Retrieval [28.022137537238425]
textbfApproaching-and-textbfCentralizing textbfACNetwork (termed textbfACNet'')を提案する。
検索モジュールは合成モジュールをガイドし、写真ドメインに徐々に接近する多彩な写真ライクな画像を生成する。
提案手法は、広く使われている2つのZS-SBIRデータセットの最先端性能を達成し、従来手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-24T19:36:10Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。