論文の概要: Zero-Shot Everything Sketch-Based Image Retrieval, and in Explainable
Style
- arxiv url: http://arxiv.org/abs/2303.14348v1
- Date: Sat, 25 Mar 2023 03:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:30:43.679513
- Title: Zero-Shot Everything Sketch-Based Image Retrieval, and in Explainable
Style
- Title(参考訳): ゼロショットによる画像検索と説明可能なスタイル
- Authors: Fengyin Lin, Mingkang Li, Da Li, Timothy Hospedales, Yi-Zhe Song,
Yonggang Qi
- Abstract要約: 本稿では,ゼロショートスケッチに基づく画像検索(ZS-SBIR)の問題点について検討する。
鍵となる革新は、そのようなクロスモーダルマッチング問題は、主要なローカルパッチのグループの比較に還元できる、という認識にある。
実験では、ZS-SBIRのすべての設定で優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 40.112168046676125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper studies the problem of zero-short sketch-based image retrieval
(ZS-SBIR), however with two significant differentiators to prior art (i) we
tackle all variants (inter-category, intra-category, and cross datasets) of
ZS-SBIR with just one network (``everything''), and (ii) we would really like
to understand how this sketch-photo matching operates (``explainable''). Our
key innovation lies with the realization that such a cross-modal matching
problem could be reduced to comparisons of groups of key local patches -- akin
to the seasoned ``bag-of-words'' paradigm. Just with this change, we are able
to achieve both of the aforementioned goals, with the added benefit of no
longer requiring external semantic knowledge. Technically, ours is a
transformer-based cross-modal network, with three novel components (i) a
self-attention module with a learnable tokenizer to produce visual tokens that
correspond to the most informative local regions, (ii) a cross-attention module
to compute local correspondences between the visual tokens across two
modalities, and finally (iii) a kernel-based relation network to assemble local
putative matches and produce an overall similarity metric for a sketch-photo
pair. Experiments show ours indeed delivers superior performances across all
ZS-SBIR settings. The all important explainable goal is elegantly achieved by
visualizing cross-modal token correspondences, and for the first time, via
sketch to photo synthesis by universal replacement of all matched photo
patches. Code and model are available at
\url{https://github.com/buptLinfy/ZSE-SBIR}.
- Abstract(参考訳): 本稿では,ゼロショートスケッチに基づく画像検索(ZS-SBIR)の問題について検討する。
i)ZS-SBIRのすべての変種(インターカテゴリ、インターカテゴリ、クロスデータセット)を1つのネットワーク(`everything'')で処理し、
(ii) このスケッチ写真マッチングがどのように機能するかを本当に理解したい(``explainable'')。
私たちの重要なイノベーションは、このようなクロスモーダルマッチング問題は、'bag-of-words'パラダイムに類似した、キーローカルパッチのグループの比較に還元できる、という認識にあります。
この変更によって、私たちは上記の2つの目標を達成できます。
技術的には、3つの新しいコンポーネントを持つトランスフォーマーベースのクロスモーダルネットワークである。
(i)最も有意義な地域に対応する視覚トークンを作成するための学習可能なトークン化器を備えた自己照応モジュール
(ii)2つのモードにわたる視覚トークン間の局所的な対応を計算し、最終的に
(iii)局所的適合関係を組み立て、スケッチと写真対の全体的な類似度指標を作成するカーネルベースの関係ネットワーク。
実験では、ZS-SBIRのすべての設定で優れたパフォーマンスを実現しています。
すべて重要な説明可能なゴールは、クロスモーダルなトークン対応を可視化することでエレガントに達成され、そして初めて、一致するすべての写真パッチを普遍的に置き換えることで、スケッチから写真合成に至る。
コードとモデルは \url{https://github.com/buptLinfy/ZSE-SBIR} で公開されている。
関連論文リスト
- Cross-Modal Attention Alignment Network with Auxiliary Text Description for zero-shot sketch-based image retrieval [10.202562518113677]
ゼロショットスケッチに基づく画像検索のための補助テキスト記述を用いたクロスモーダルアライメント・アライメント・ネットワークを提案する。
私たちの重要なイノベーションは、画像の補助情報としてテキストデータを使用することであり、それによって言語が提供する本質的にゼロショットの一般化能力を活用することです。
論文 参考訳(メタデータ) (2024-07-01T05:32:06Z) - Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Modality-Aware Representation Learning for Zero-shot Sketch-based Image
Retrieval [10.568851068989973]
ゼロショット学習は、機械学習モデルが目に見えないカテゴリを扱うための効率的なソリューションを提供する。
そこで本研究では,スケッチや写真をテキストで対比して間接的にアライメントする新しいフレームワークを提案する。
データから学習したモダリティを明示的に符号化することで、モダリティ固有の情報からモダリティに依存しないセマンティクスを分離する。
論文 参考訳(メタデータ) (2024-01-10T00:39:03Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based
Image Retrieval [30.249581102239645]
スケッチベース画像検索(SBIR)の文脈におけるZSL(クロスモーダル・ゼロショット・ラーニング)のための新しいフレームワークを提案する。
共有空間の識別性を確保するためにクロスモーダル三重項損失を定義する一方で、画像領域から特徴抽出を導くための革新的なクロスモーダル注意学習戦略も提案されている。
論文 参考訳(メタデータ) (2021-04-20T12:11:12Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。