論文の概要: WAD-CMSN: Wasserstein Distance based Cross-Modal Semantic Network for
Zero-Shot Sketch-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2202.05465v1
- Date: Fri, 11 Feb 2022 05:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 04:39:07.910742
- Title: WAD-CMSN: Wasserstein Distance based Cross-Modal Semantic Network for
Zero-Shot Sketch-Based Image Retrieval
- Title(参考訳): WAD-CMSN:Zero-Shot Sketch-based Image Retrievalのためのワッサーシュタイン距離に基づくクロスモーダルセマンティックネットワーク
- Authors: Guanglong Xu, Zhensheng Hu, Jia Cai
- Abstract要約: ゼロショットスケッチに基づく画像検索(ZSSBIR)はコンピュータビジョンの一般的な研究分野である。
ZSSBIRのためのワッサースタイン距離に基づくクロスモーダルセマンティックネットワーク(WAD-CMSN)を提案する。
- 参考スコア(独自算出の注目度): 1.4180331276028657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot sketch-based image retrieval (ZSSBIR), as a popular studied branch
of computer vision, attracts wide attention recently. Unlike sketch-based image
retrieval (SBIR), the main aim of ZSSBIR is to retrieve natural images given
free hand-drawn sketches that may not appear during training. Previous
approaches used semantic aligned sketch-image pairs or utilized memory
expensive fusion layer for projecting the visual information to a low
dimensional subspace, which ignores the significant heterogeneous cross-domain
discrepancy between highly abstract sketch and relevant image. This may yield
poor performance in the training phase. To tackle this issue and overcome this
drawback, we propose a Wasserstein distance based cross-modal semantic network
(WAD-CMSN) for ZSSBIR. Specifically, it first projects the visual information
of each branch (sketch, image) to a common low dimensional semantic subspace
via Wasserstein distance in an adversarial training manner. Furthermore,
identity matching loss is employed to select useful features, which can not
only capture complete semantic knowledge, but also alleviate the over-fitting
phenomenon caused by the WAD-CMSN model. Experimental results on the
challenging Sketchy (Extended) and TU-Berlin (Extended) datasets indicate the
effectiveness of the proposed WAD-CMSN model over several competitors.
- Abstract(参考訳): ゼロショットスケッチに基づく画像検索(ZSSBIR)はコンピュータビジョンの一般的な研究分野として近年注目を集めている。
スケッチベースの画像検索(SBIR)とは異なり、ZSSBIRの主な目的は、訓練中に現れない手書きのスケッチを無償で取得することである。
従来のアプローチでは、セマンティクスアライメントのスケッチ-イメージペアを使用したり、メモリの高価な融合層を使用して、視覚情報を低次元のサブスペースに投影する。
これにより、トレーニングフェーズではパフォーマンスが低下する可能性がある。
この問題に取り組み,この問題を克服するために,wasserstein distance based cross-modal semantic network (wad-cmsn) を提案する。
具体的には、まず各ブランチの視覚情報(スケッチ、画像)を、敵対的なトレーニング方法でwasserstein距離を介して共通の低次元意味部分空間に投影する。
さらに、完全な意味知識を捉えるだけでなく、wad-cmsnモデルによって引き起こされる過剰フィッティング現象を緩和できる有用な特徴を選択するためにアイデンティティマッチング損失を用いる。
挑戦的なSketchy(Extended)とTU-Berlin(Extended)データセットの実験結果は、提案したWAD-CMSNモデルの有効性を示している。
関連論文リスト
- Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - Three-Stream Joint Network for Zero-Shot Sketch-Based Image Retrieval [15.191262439963221]
ZS-SBIR(Zero-Shot Sketch-based Image Retrieval)は、スケッチと自然画像の間に大きな領域ギャップがあるため、難しい課題である。
本稿では,ZS-SBIRタスクのための3ストリーム共同学習ネットワーク(JOIN)を提案する。
論文 参考訳(メタデータ) (2022-04-12T09:52:17Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based
Image Retrieval [30.249581102239645]
スケッチベース画像検索(SBIR)の文脈におけるZSL(クロスモーダル・ゼロショット・ラーニング)のための新しいフレームワークを提案する。
共有空間の識別性を確保するためにクロスモーダル三重項損失を定義する一方で、画像領域から特徴抽出を導くための革新的なクロスモーダル注意学習戦略も提案されている。
論文 参考訳(メタデータ) (2021-04-20T12:11:12Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - Progressive Domain-Independent Feature Decomposition Network for
Zero-Shot Sketch-Based Image Retrieval [15.955284712628444]
本稿では,ZS-SBIRのためのプログレッシブドメイン独立型特徴分解(PDFD)ネットワークを提案する。
具体的には、PDFDは、視覚的特徴をドメインの特徴と意味的特徴に分解し、その意味的特徴をZS-SBIRの検索機能として共通空間に投影する。
論文 参考訳(メタデータ) (2020-03-22T12:07:23Z) - Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image
Retrieval [203.2520862597357]
きめ細かいスケッチベースの画像検索(FG-SBIR)は、ユーザのクエリのスケッチから特定の写真インスタンスを検索する問題に対処する。
これらの課題に対処するため、従来のFG-SBIRフレームワークを再構築する。
ユーザが絵を描き始めるとすぐに検索を開始できるオンザフライ設計を提案する。
論文 参考訳(メタデータ) (2020-02-24T15:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。