論文の概要: Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2305.05144v3
- Date: Wed, 9 Aug 2023 14:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:30:47.770844
- Title: Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval
- Title(参考訳): ゼロショットスケッチに基づく画像検索を改善するAdapt and Align
- Authors: Shiyin Dong, Mingrui Zhu, Nannan Wang, Xinbo Gao
- Abstract要約: スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
- 参考スコア(独自算出の注目度): 85.39613457282107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot sketch-based image retrieval (ZS-SBIR) is challenging due to the
cross-domain nature of sketches and photos, as well as the semantic gap between
seen and unseen image distributions. Previous methods fine-tune pre-trained
models with various side information and learning strategies to learn a compact
feature space that is shared between the sketch and photo domains and bridges
seen and unseen classes. However, these efforts are inadequate in adapting
domains and transferring knowledge from seen to unseen classes. In this paper,
we present an effective ``Adapt and Align'' approach to address the key
challenges. Specifically, we insert simple and lightweight domain adapters to
learn new abstract concepts of the sketch domain and improve cross-domain
representation capabilities. Inspired by recent advances in image-text
foundation models (e.g., CLIP) on zero-shot scenarios, we explicitly align the
learned image embedding with a more semantic text embedding to achieve the
desired knowledge transfer from seen to unseen classes. Extensive experiments
on three benchmark datasets and two popular backbones demonstrate the
superiority of our method in terms of retrieval accuracy and flexibility.
- Abstract(参考訳): ゼロショットスケッチに基づく画像検索(ZS-SBIR)は、スケッチや写真のドメイン横断性や、見えない画像分布と見えない画像分布のセマンティックなギャップによって困難である。
スケッチと写真ドメイン間で共有されるコンパクトな特徴空間を学習するために、様々な側面情報と学習戦略を持つ事前訓練されたモデルを微調整する以前の方法。
しかし、これらの取り組みはドメインを適応させ、見知らぬクラスから知識を移すのに不十分である。
本稿では,これらの課題に対処する効果的な `Adapt and Align'' アプローチを提案する。
具体的には、単純で軽量なドメインアダプタを挿入して、sketchドメインの新しい抽象概念を学び、クロスドメイン表現機能を改善する。
ゼロショットシナリオにおける画像-テキスト基盤モデル(例えばクリップ)の最近の進歩に触発されて、我々は学習した画像埋め込みをよりセマンティックなテキスト埋め込みで明示的に調整し、見慣れないクラスに望ましい知識伝達を達成する。
3つのベンチマークデータセットと2つの人気のあるバックボーンに関する大規模な実験は、検索精度と柔軟性の観点から、我々の手法の優位性を実証している。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Three-Stream Joint Network for Zero-Shot Sketch-Based Image Retrieval [15.191262439963221]
ZS-SBIR(Zero-Shot Sketch-based Image Retrieval)は、スケッチと自然画像の間に大きな領域ギャップがあるため、難しい課題である。
本稿では,ZS-SBIRタスクのための3ストリーム共同学習ネットワーク(JOIN)を提案する。
論文 参考訳(メタデータ) (2022-04-12T09:52:17Z) - Doodle It Yourself: Class Incremental Learning by Drawing a Few Sketches [100.3966994660079]
本稿では,(i)ドメイン不変学習の勾配コンセンサス,(ii)古いクラス情報を保存するための知識蒸留,(iii)古いクラスと新しいクラスのメッセージパッシングのためのグラフアテンションネットワークについて述べる。
FSCILのコンテキストにおいて,スケッチはテキストよりもクラスサポートが優れていることを示す。
論文 参考訳(メタデータ) (2022-03-28T15:35:33Z) - Zero-Shot Sketch Based Image Retrieval using Graph Transformer [18.00165431469872]
本稿では,ZS-SBIRタスクを解くためのゼロショットスケッチベース画像検索(GTZSR)フレームワークを提案する。
視覚的特徴間の領域ギャップを埋めるために,学習領域共有空間における画像とスケッチ間のワッサーシュタイン距離を最小化することを提案する。
また、トレーニングセット内の他のすべてのクラスのドメインギャップに対して、1つのクラスのドメインギャップをブリッジすることで、2つの視覚領域を更に整合させる新しい互換性損失を提案する。
論文 参考訳(メタデータ) (2022-01-25T09:02:39Z) - ACNet: Approaching-and-Centralizing Network for Zero-Shot Sketch-Based
Image Retrieval [28.022137537238425]
textbfApproaching-and-textbfCentralizing textbfACNetwork (termed textbfACNet'')を提案する。
検索モジュールは合成モジュールをガイドし、写真ドメインに徐々に接近する多彩な写真ライクな画像を生成する。
提案手法は、広く使われている2つのZS-SBIRデータセットの最先端性能を達成し、従来手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-24T19:36:10Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based
Image Retrieval [30.249581102239645]
スケッチベース画像検索(SBIR)の文脈におけるZSL(クロスモーダル・ゼロショット・ラーニング)のための新しいフレームワークを提案する。
共有空間の識別性を確保するためにクロスモーダル三重項損失を定義する一方で、画像領域から特徴抽出を導くための革新的なクロスモーダル注意学習戦略も提案されている。
論文 参考訳(メタデータ) (2021-04-20T12:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。