論文の概要: CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained
or Not
- arxiv url: http://arxiv.org/abs/2303.13440v3
- Date: Tue, 28 Mar 2023 02:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 11:24:32.178021
- Title: CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained
or Not
- Title(参考訳): CLIP for All Things Zero-Shot Sketch-based Image Retrieval, Fine-Grained or not
- Authors: Aneeshan Sain, Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Subhadeep
Koley, Tao Xiang, Yi-Zhe Song
- Abstract要約: ゼロショットスケッチに基づく画像検索(ZS-SBIR)におけるCLIPの利用
私たちはこのシナジーを達成するのにいかに最適かという新しいデザインを提唱した。
これまでの最先端技術よりも26.9%の領域で顕著なパフォーマンス向上が観察された。
- 参考スコア(独自算出の注目度): 109.69076457732632
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we leverage CLIP for zero-shot sketch based image retrieval
(ZS-SBIR). We are largely inspired by recent advances on foundation models and
the unparalleled generalisation ability they seem to offer, but for the first
time tailor it to benefit the sketch community. We put forward novel designs on
how best to achieve this synergy, for both the category setting and the
fine-grained setting ("all"). At the very core of our solution is a prompt
learning setup. First we show just via factoring in sketch-specific prompts, we
already have a category-level ZS-SBIR system that overshoots all prior arts, by
a large margin (24.8%) - a great testimony on studying the CLIP and ZS-SBIR
synergy. Moving onto the fine-grained setup is however trickier, and requires a
deeper dive into this synergy. For that, we come up with two specific designs
to tackle the fine-grained matching nature of the problem: (i) an additional
regularisation loss to ensure the relative separation between sketches and
photos is uniform across categories, which is not the case for the gold
standard standalone triplet loss, and (ii) a clever patch shuffling technique
to help establishing instance-level structural correspondences between
sketch-photo pairs. With these designs, we again observe significant
performance gains in the region of 26.9% over previous state-of-the-art. The
take-home message, if any, is the proposed CLIP and prompt learning paradigm
carries great promise in tackling other sketch-related tasks (not limited to
ZS-SBIR) where data scarcity remains a great challenge. Project page:
https://aneeshan95.github.io/Sketch_LVM/
- Abstract(参考訳): 本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)にCLIPを利用する。
私たちは、ファンデーションモデルにおける最近の進歩と、彼らが提供していると思われる非並列の一般化能力に大きく影響を受けています。
我々は、このシナジーをいかに最適に達成するかという新しいデザインを、カテゴリー設定ときめ細かい設定("all")の両方のために提案した。
私たちのソリューションの核心は、迅速な学習セットアップです。
まず、スケッチ固有のプロンプトをファクタリングすることで、すでにカテゴリレベルのZS-SBIRシステムがあり、すべての先行芸術をオーバーシュートし(24.8%)、CLIPとZS-SBIRのシナジーを研究する上で大きな証拠となります。
しかし、細かな設定に移行するのは難しく、このシナジーを深く掘り下げる必要がある。
そのため、この問題のきめ細かいマッチング性に取り組むために、2つの具体的な設計を考え出した。
(i)スケッチと写真の相対的な分離がカテゴリ間で均一であることを保証するための追加の正規化損失。金本位制の三重項損失はそうではない。
(ii)スケッチとフォトのペア間のインスタンスレベルの構造的対応を確立するための巧妙なパッチシャッフル技術。
これらの設計により、我々は以前の最先端よりも26.9%の領域での大幅な性能向上を再び観察する。
提案されているクリップとプロンプト学習のパラダイムは、データ不足が大きな課題である他のスケッチ関連のタスク(zs-sbirに限らず)に取り組む上で、大きな可能性を秘めています。
プロジェクトページ: https://aneeshan95.github.io/Sketch_LVM/
関連論文リスト
- Do Generalised Classifiers really work on Human Drawn Sketches? [122.11670266648771]
本稿では,人間のスケッチ理解を伴う大規模基礎モデルについて述べる。
一般的なスケッチ表現学習という観点からのパラダイムシフトです。
我々のフレームワークは、ゼロショットと少数ショットの両方で一般的なスケッチ表現学習アルゴリズムを超越している。
論文 参考訳(メタデータ) (2024-07-04T12:37:08Z) - Zero-Shot Everything Sketch-Based Image Retrieval, and in Explainable
Style [40.112168046676125]
本稿では,ゼロショートスケッチに基づく画像検索(ZS-SBIR)の問題点について検討する。
鍵となる革新は、そのようなクロスモーダルマッチング問題は、主要なローカルパッチのグループの比較に還元できる、という認識にある。
実験では、ZS-SBIRのすべての設定で優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-03-25T03:52:32Z) - Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR [103.51937218213774]
本稿では,先行技術の11%をオーバーシュートする強力なベースラインを提示することにより,微細なスケッチベース画像検索(FG-SBIR)の文献化を推し進める。
本稿では,写真/スケッチインスタンス間の分離を明示的に実施する標準的な三重項損失の簡単な修正を提案する。
i) スケッチ間でのモダル内トリプルトロスを利用して、同じインスタンスのスケッチを他のインスタンスに近づけます。
論文 参考訳(メタデータ) (2023-03-24T03:34:33Z) - Sketch3T: Test-Time Training for Zero-Shot SBIR [106.59164595640704]
ゼロショットのスケッチに基づく画像検索は、通常、未確認のカテゴリのように訓練されたモデルを適用するように要求する。
我々は、ZS-SBIRを拡張して、両方のカテゴリとスケッチ分布に転送するよう求めます。
私たちの重要な貢献は、ひとつのスケッチを使って適応できるテスト時のトレーニングパラダイムです。
論文 参考訳(メタデータ) (2022-03-28T12:44:49Z) - Multi-granularity Association Learning Framework for on-the-fly
Fine-Grained Sketch-based Image Retrieval [7.797006835701767]
きめ細かいスケッチベース画像検索(FG-SBIR)は、与えられたクエリスケッチで特定の写真を取得する問題に対処する。
本研究では,最小のストローク数で対象写真を検索することを目的とした(不完全スケッチ)。
非完全スケッチの埋め込み空間をさらに最適化する多粒性関連学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-13T14:38:50Z) - ACNet: Approaching-and-Centralizing Network for Zero-Shot Sketch-Based
Image Retrieval [28.022137537238425]
textbfApproaching-and-textbfCentralizing textbfACNetwork (termed textbfACNet'')を提案する。
検索モジュールは合成モジュールをガイドし、写真ドメインに徐々に接近する多彩な写真ライクな画像を生成する。
提案手法は、広く使われている2つのZS-SBIRデータセットの最先端性能を達成し、従来手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-24T19:36:10Z) - More Photos are All You Need: Semi-Supervised Learning for Fine-Grained
Sketch Based Image Retrieval [112.1756171062067]
クロスモーダル検索のための新しい半監視フレームワークについて紹介する。
私たちの設計の中心には、連続したフォトツースケッチ生成モデルがあります。
また,不適切な生成を誘導する判別器誘導機構も導入する。
論文 参考訳(メタデータ) (2021-03-25T17:27:08Z) - Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image
Retrieval [203.2520862597357]
きめ細かいスケッチベースの画像検索(FG-SBIR)は、ユーザのクエリのスケッチから特定の写真インスタンスを検索する問題に対処する。
これらの課題に対処するため、従来のFG-SBIRフレームワークを再構築する。
ユーザが絵を描き始めるとすぐに検索を開始できるオンザフライ設計を提案する。
論文 参考訳(メタデータ) (2020-02-24T15:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。