論文の概要: Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval
- arxiv url: http://arxiv.org/abs/2006.11397v1
- Date: Sat, 20 Jun 2020 22:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:18:57.761070
- Title: Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval
- Title(参考訳): 任意のショットスケッチに基づく画像検索のためのセマンティックタイドペアサイクル整合性
- Authors: Anjan Dutta and Zeynep Akata
- Abstract要約: ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 55.29233996427243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-shot sketch-based image retrieval is an emerging task in computer vision,
allowing to retrieve natural images relevant to hand-drawn sketch queries that
are rarely seen during the training phase. Related prior works either require
aligned sketch-image pairs that are costly to obtain or inefficient memory
fusion layer for mapping the visual information to a semantic space. In this
paper, we address any-shot, i.e. zero-shot and few-shot, sketch-based image
retrieval (SBIR) tasks, where we introduce the few-shot setting for SBIR. For
solving these tasks, we propose a semantically aligned paired cycle-consistent
generative adversarial network (SEM-PCYC) for any-shot SBIR, where each branch
of the generative adversarial network maps the visual information from sketch
and image to a common semantic space via adversarial training. Each of these
branches maintains cycle consistency that only requires supervision at the
category level, and avoids the need of aligned sketch-image pairs. A
classification criteria on the generators' outputs ensures the visual to
semantic space mapping to be class-specific. Furthermore, we propose to combine
textual and hierarchical side information via an auto-encoder that selects
discriminating side information within a same end-to-end model. Our results
demonstrate a significant boost in any-shot SBIR performance over the
state-of-the-art on the extended version of the challenging Sketchy, TU-Berlin
and QuickDraw datasets.
- Abstract(参考訳): 低ショットスケッチに基づく画像検索は、コンピュータビジョンにおける新たなタスクであり、訓練段階ではほとんど見られない手書きのスケッチクエリに関連する自然画像を取得することができる。
関連する以前の作業では、視覚情報をセマンティック空間にマッピングするために、コストがかかるスケッチイメージのペア、あるいは非効率なメモリ融合層が必要です。
本稿では,ゼロショットと少ないショット,スケッチベースの画像検索(sbir)タスクのany-shotに対処し,sbirのone-shot設定について紹介する。
これらの課題を解決するために、任意のショットSBIRに対して意味的に整合したサイクル整合型生成逆数ネットワーク(SEM-PCYC)を提案し、生成逆数ネットワークの各ブランチは、スケッチと画像からの視覚情報を、逆数トレーニングにより共通の意味空間にマッピングする。
それぞれのブランチは、カテゴリレベルでのみ監視を必要とするサイクル一貫性を維持し、整列したスケッチイメージペアの必要性を回避する。
ジェネレータの出力の分類基準により、視覚的から意味的な空間マッピングはクラス固有のものになる。
さらに,同じエンド・ツー・エンドモデル内での識別側情報を選択する自動エンコーダを用いて,テキストと階層側情報を組み合わせることを提案する。
我々の結果は、挑戦的なSketchy、TU-Berlin、QuickDrawデータセットの拡張バージョンに対する最先端のSBIR性能を大幅に向上させたことを示す。
関連論文リスト
- Query-guided Attention in Vision Transformers for Localizing Objects
Using a Single Sketch [17.63475613154152]
オブジェクトの粗雑な手書きスケッチが与えられた場合、目標は、ターゲット画像上の同じオブジェクトのすべてのインスタンスをローカライズすることである。
この問題は、手描きスケッチの抽象的な性質、スケッチのスタイルや質のバリエーション、スケッチと自然画像の間に存在する大きな領域ギャップなどによって証明される。
本稿では,画像エンコーダの各ブロックにクロスアテンションを用いて,問合せ条件付き画像特徴を学習するスケッチ誘導型視覚トランスフォーマエンコーダを提案する。
論文 参考訳(メタデータ) (2023-03-15T17:26:17Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Zero-Shot Sketch Based Image Retrieval using Graph Transformer [18.00165431469872]
本稿では,ZS-SBIRタスクを解くためのゼロショットスケッチベース画像検索(GTZSR)フレームワークを提案する。
視覚的特徴間の領域ギャップを埋めるために,学習領域共有空間における画像とスケッチ間のワッサーシュタイン距離を最小化することを提案する。
また、トレーニングセット内の他のすべてのクラスのドメインギャップに対して、1つのクラスのドメインギャップをブリッジすることで、2つの視覚領域を更に整合させる新しい互換性損失を提案する。
論文 参考訳(メタデータ) (2022-01-25T09:02:39Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based
Image Retrieval [30.249581102239645]
スケッチベース画像検索(SBIR)の文脈におけるZSL(クロスモーダル・ゼロショット・ラーニング)のための新しいフレームワークを提案する。
共有空間の識別性を確保するためにクロスモーダル三重項損失を定義する一方で、画像領域から特徴抽出を導くための革新的なクロスモーダル注意学習戦略も提案されている。
論文 参考訳(メタデータ) (2021-04-20T12:11:12Z) - Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image
Retrieval [147.24102408745247]
我々は、これまで見過ごされてきたスケッチのさらなる特性、すなわち、詳細レベルの階層性について研究する。
本稿では,スケッチ固有の階層を育成し,それを利用して,対応する階層レベルでのスケッチと写真とのマッチングを行う新しいネットワークを設計する。
論文 参考訳(メタデータ) (2020-07-29T20:50:25Z) - Progressive Domain-Independent Feature Decomposition Network for
Zero-Shot Sketch-Based Image Retrieval [15.955284712628444]
本稿では,ZS-SBIRのためのプログレッシブドメイン独立型特徴分解(PDFD)ネットワークを提案する。
具体的には、PDFDは、視覚的特徴をドメインの特徴と意味的特徴に分解し、その意味的特徴をZS-SBIRの検索機能として共通空間に投影する。
論文 参考訳(メタデータ) (2020-03-22T12:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。