論文の概要: Progressive Domain-Independent Feature Decomposition Network for
Zero-Shot Sketch-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2003.09869v2
- Date: Fri, 6 May 2022 12:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:43:10.312233
- Title: Progressive Domain-Independent Feature Decomposition Network for
Zero-Shot Sketch-Based Image Retrieval
- Title(参考訳): ゼロショットスケッチに基づく画像検索のためのプログレッシブドメイン非依存特徴分解ネットワーク
- Authors: Xinxun Xu, Muli Yang, Yanhua Yang and Hao Wang
- Abstract要約: 本稿では,ZS-SBIRのためのプログレッシブドメイン独立型特徴分解(PDFD)ネットワークを提案する。
具体的には、PDFDは、視覚的特徴をドメインの特徴と意味的特徴に分解し、その意味的特徴をZS-SBIRの検索機能として共通空間に投影する。
- 参考スコア(独自算出の注目度): 15.955284712628444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot sketch-based image retrieval (ZS-SBIR) is a specific cross-modal
retrieval task for searching natural images given free-hand sketches under the
zero-shot scenario. Most existing methods solve this problem by simultaneously
projecting visual features and semantic supervision into a low-dimensional
common space for efficient retrieval. However, such low-dimensional projection
destroys the completeness of semantic knowledge in original semantic space, so
that it is unable to transfer useful knowledge well when learning semantic from
different modalities. Moreover, the domain information and semantic information
are entangled in visual features, which is not conducive for cross-modal
matching since it will hinder the reduction of domain gap between sketch and
image. In this paper, we propose a Progressive Domain-independent Feature
Decomposition (PDFD) network for ZS-SBIR. Specifically, with the supervision of
original semantic knowledge, PDFD decomposes visual features into domain
features and semantic ones, and then the semantic features are projected into
common space as retrieval features for ZS-SBIR. The progressive projection
strategy maintains strong semantic supervision. Besides, to guarantee the
retrieval features to capture clean and complete semantic information, the
cross-reconstruction loss is introduced to encourage that any combinations of
retrieval features and domain features can reconstruct the visual features.
Extensive experiments demonstrate the superiority of our PDFD over
state-of-the-art competitors.
- Abstract(参考訳): zero-shot sketch-based image retrieval (zs-sbir) は、ゼロショットシナリオで与えられたフリーハンドスケッチを検索するための、特定のクロスモーダル検索タスクである。
既存の手法の多くは、視覚的特徴と意味的監督を同時に低次元の共通空間に投影することでこの問題を解決し、効率的な検索を行う。
しかし、このような低次元投影は、本来の意味空間における意味知識の完全性を破壊するため、異なるモダリティから意味を学習する際に有用な知識を伝達できない。
さらに、ドメイン情報と意味情報は視覚的特徴に絡み合っており、スケッチと画像間のドメインギャップの減少を妨げるため、クロスモーダルマッチングには適さない。
本稿では,ZS-SBIRのためのプログレッシブドメイン非依存特徴分解(PDFD)ネットワークを提案する。
具体的には、元の意味知識を監督することで、PDFDは視覚的特徴をドメインの特徴と意味的特徴に分解し、その意味的特徴をZS-SBIRの検索機能として共通空間に投影する。
プログレッシブ・プロジェクション・ストラテジーは強い意味的監督を維持している。
さらに、クリーンで完全なセマンティック情報を取得するための検索機能を保証するために、検索機能とドメイン機能の組み合わせが視覚的特徴を再構築できるように、クロスコンストラクションロスを導入する。
広範な実験は、最先端の競争相手よりもpdfdの方が優れていることを示している。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - WAD-CMSN: Wasserstein Distance based Cross-Modal Semantic Network for
Zero-Shot Sketch-Based Image Retrieval [1.4180331276028657]
ゼロショットスケッチに基づく画像検索(ZSSBIR)はコンピュータビジョンの一般的な研究分野である。
ZSSBIRのためのワッサースタイン距離に基づくクロスモーダルセマンティックネットワーク(WAD-CMSN)を提案する。
論文 参考訳(メタデータ) (2022-02-11T05:56:30Z) - Zero-Shot Sketch Based Image Retrieval using Graph Transformer [18.00165431469872]
本稿では,ZS-SBIRタスクを解くためのゼロショットスケッチベース画像検索(GTZSR)フレームワークを提案する。
視覚的特徴間の領域ギャップを埋めるために,学習領域共有空間における画像とスケッチ間のワッサーシュタイン距離を最小化することを提案する。
また、トレーニングセット内の他のすべてのクラスのドメインギャップに対して、1つのクラスのドメインギャップをブリッジすることで、2つの視覚領域を更に整合させる新しい互換性損失を提案する。
論文 参考訳(メタデータ) (2022-01-25T09:02:39Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based
Image Retrieval [30.249581102239645]
スケッチベース画像検索(SBIR)の文脈におけるZSL(クロスモーダル・ゼロショット・ラーニング)のための新しいフレームワークを提案する。
共有空間の識別性を確保するためにクロスモーダル三重項損失を定義する一方で、画像領域から特徴抽出を導くための革新的なクロスモーダル注意学習戦略も提案されている。
論文 参考訳(メタデータ) (2021-04-20T12:11:12Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。