論文の概要: CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based
Image Retrieval
- arxiv url: http://arxiv.org/abs/2104.09918v1
- Date: Tue, 20 Apr 2021 12:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 20:06:48.285202
- Title: CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based
Image Retrieval
- Title(参考訳): crossatnet - スケッチに基づく画像検索のための新しいクロスアテンションベースフレームワーク
- Authors: Ushasi Chaudhuri, Biplab Banerjee, Avik Bhattacharya, Mihai Datcu
- Abstract要約: スケッチベース画像検索(SBIR)の文脈におけるZSL(クロスモーダル・ゼロショット・ラーニング)のための新しいフレームワークを提案する。
共有空間の識別性を確保するためにクロスモーダル三重項損失を定義する一方で、画像領域から特徴抽出を導くための革新的なクロスモーダル注意学習戦略も提案されている。
- 参考スコア(独自算出の注目度): 30.249581102239645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel framework for cross-modal zero-shot learning (ZSL) in the
context of sketch-based image retrieval (SBIR). Conventionally, the SBIR schema
mainly considers simultaneous mappings among the two image views and the
semantic side information. Therefore, it is desirable to consider fine-grained
classes mainly in the sketch domain using highly discriminative and
semantically rich feature space. However, the existing deep generative
modeling-based SBIR approaches majorly focus on bridging the gaps between the
seen and unseen classes by generating pseudo-unseen-class samples. Besides,
violating the ZSL protocol by not utilizing any unseen-class information during
training, such techniques do not pay explicit attention to modeling the
discriminative nature of the shared space. Also, we note that learning a
unified feature space for both the multi-view visual data is a tedious task
considering the significant domain difference between sketches and color
images. In this respect, as a remedy, we introduce a novel framework for
zero-shot SBIR. While we define a cross-modal triplet loss to ensure the
discriminative nature of the shared space, an innovative cross-modal attention
learning strategy is also proposed to guide feature extraction from the image
domain exploiting information from the respective sketch counterpart. In order
to preserve the semantic consistency of the shared space, we consider a graph
CNN-based module that propagates the semantic class topology to the shared
space. To ensure an improved response time during inference, we further explore
the possibility of representing the shared space in terms of hash codes.
Experimental results obtained on the benchmark TU-Berlin and the Sketchy
datasets confirm the superiority of CrossATNet in yielding state-of-the-art
results.
- Abstract(参考訳): スケッチベース画像検索(SBIR)の文脈において,クロスモーダルゼロショット学習(ZSL)のための新しいフレームワークを提案する。
従来、SBIRスキーマは2つの画像ビューとセマンティック側情報の同時マッピングを主に検討していた。
したがって、特にスケッチ領域における細粒度クラスを、高度に識別的かつ意味的にリッチな特徴空間を用いて考慮することが望ましい。
しかし、既存の深層モデルに基づくSBIRアプローチは、疑似未知のサンプルを生成することによって、見かけと見えないクラスのギャップを埋めることに重点を置いている。
また、ZSLプロトコルをトレーニング中に見知らぬクラス情報を利用しないことで違反することは、共有空間の識別特性をモデル化することに明確な注意を払わない。
また、スケッチとカラー画像の領域差を考えると、マルチビューの視覚データの両方に統一的な特徴空間を学習するのは面倒な作業である。
この点に関して、ゼロショットSBIRのための新しいフレームワークを導入する。
共有空間の識別性を確保するために、横断的三重項損失を定義する一方で、各スケッチから情報を活用する画像領域からの特徴抽出を誘導する革新的な横断的注意学習戦略も提案する。
共有空間の意味的一貫性を維持するために,共有空間に意味クラストポロジを伝播するグラフCNNベースのモジュールを考える。
推論中の応答時間を改善するために,ハッシュコードを用いて共有空間を表現する可能性について検討する。
ベンチマークTU-BerlinとSketchyデータセットで得られた実験結果は、最先端の結果を得るためにCrossATNetの優位性を確認する。
関連論文リスト
- Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - Zero-Shot Sketch Based Image Retrieval using Graph Transformer [18.00165431469872]
本稿では,ZS-SBIRタスクを解くためのゼロショットスケッチベース画像検索(GTZSR)フレームワークを提案する。
視覚的特徴間の領域ギャップを埋めるために,学習領域共有空間における画像とスケッチ間のワッサーシュタイン距離を最小化することを提案する。
また、トレーニングセット内の他のすべてのクラスのドメインギャップに対して、1つのクラスのドメインギャップをブリッジすることで、2つの視覚領域を更に整合させる新しい互換性損失を提案する。
論文 参考訳(メタデータ) (2022-01-25T09:02:39Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - Progressive Domain-Independent Feature Decomposition Network for
Zero-Shot Sketch-Based Image Retrieval [15.955284712628444]
本稿では,ZS-SBIRのためのプログレッシブドメイン独立型特徴分解(PDFD)ネットワークを提案する。
具体的には、PDFDは、視覚的特徴をドメインの特徴と意味的特徴に分解し、その意味的特徴をZS-SBIRの検索機能として共通空間に投影する。
論文 参考訳(メタデータ) (2020-03-22T12:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。