論文の概要: Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval
- arxiv url: http://arxiv.org/abs/2312.10320v1
- Date: Sat, 16 Dec 2023 04:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:14:31.755675
- Title: Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval
- Title(参考訳): ゼロショットスケッチに基づく画像検索のための対称的双方向知識アライメント
- Authors: Decheng Liu, Xu Luo, Chunlei Peng, Nannan Wang, Ruimin Hu, Xinbo Gao
- Abstract要約: 本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
- 参考スコア(独自算出の注目度): 69.46139774646308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of zero-shot sketch-based image retrieval
(ZS-SBIR), which aims to use sketches from unseen categories as queries to
match the images of the same category. Due to the large cross-modality
discrepancy, ZS-SBIR is still a challenging task and mimics realistic zero-shot
scenarios. The key is to leverage transferable knowledge from the pre-trained
model to improve generalizability. Existing researchers often utilize the
simple fine-tuning training strategy or knowledge distillation from a teacher
model with fixed parameters, lacking efficient bidirectional knowledge
alignment between student and teacher models simultaneously for better
generalization. In this paper, we propose a novel Symmetrical Bidirectional
Knowledge Alignment for zero-shot sketch-based image retrieval (SBKA). The
symmetrical bidirectional knowledge alignment learning framework is designed to
effectively learn mutual rich discriminative information between teacher and
student models to achieve the goal of knowledge alignment. Instead of the
former one-to-one cross-modality matching in the testing stage, a one-to-many
cluster cross-modality matching method is proposed to leverage the inherent
relationship of intra-class images to reduce the adverse effects of the
existing modality gap. Experiments on several representative ZS-SBIR datasets
(Sketchy Ext dataset, TU-Berlin Ext dataset and QuickDraw Ext dataset) prove
the proposed algorithm can achieve superior performance compared with
state-of-the-art methods.
- Abstract(参考訳): 本稿では,未発見のカテゴリからのスケッチを,同一カテゴリの画像にマッチするクエリとして使用することを目的とした,ゼロショット・スケッチベース画像検索(zs-sbir)の問題について検討する。
ZS-SBIRは、モダリティの相違が大きいため、依然として困難な課題であり、現実的なゼロショットシナリオを模倣している。
鍵となるのは、トレーニング済みモデルから転送可能な知識を活用して、一般化可能性を改善することだ。
既存の研究者はしばしば、固定パラメータを持つ教師モデルからの簡単な微調整訓練戦略や知識蒸留を利用しており、生徒モデルと教師モデルの効果的な双方向知識アライメントを欠いている。
本稿では,ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
対称的双方向知識アライメント学習フレームワークは、教師と生徒の相互に豊かな識別情報を効果的に学習し、知識アライメントの目標を達成するように設計されている。
テスト段階での1対1のクロスモダリティマッチングの代わりに、クラス内画像の固有の関係を利用して既存のモダリティギャップの悪影響を低減する1対1のクラスタクロスモダリティマッチング法が提案されている。
いくつかの代表的なZS-SBIRデータセット(Sketchy Ext データセット、TU-Berlin Ext データセット、QuickDraw Ext データセット)の実験により、提案アルゴリズムは最先端の手法と比較して優れた性能が得られることを示した。
関連論文リスト
- Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Modality-Aware Representation Learning for Zero-shot Sketch-based Image
Retrieval [10.568851068989973]
ゼロショット学習は、機械学習モデルが目に見えないカテゴリを扱うための効率的なソリューションを提供する。
そこで本研究では,スケッチや写真をテキストで対比して間接的にアライメントする新しいフレームワークを提案する。
データから学習したモダリティを明示的に符号化することで、モダリティ固有の情報からモダリティに依存しないセマンティクスを分離する。
論文 参考訳(メタデータ) (2024-01-10T00:39:03Z) - Data-Free Sketch-Based Image Retrieval [56.96186184599313]
本研究では,事前学習された単一モダリティ分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習するData-Free (DF)-SBIRを提案する。
本稿では、写真やスケッチの分類を行うために、独立して訓練されたモデルからの知識を活用できるDF-SBIRの方法論を提案する。
また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。
論文 参考訳(メタデータ) (2023-03-14T10:34:07Z) - S2-Net: Self-supervision Guided Feature Representation Learning for
Cross-Modality Images [0.0]
モダリティ間の画像ペアは、通信の特徴表現を可能な限り近いものにするのに失敗することが多い。
本稿では,最近成功した検出・記述パイプラインに基づいて,モーダリティ間特徴表現学習ネットワークであるS2-Netを設計する。
本稿では,自己教師型学習とよく設計された損失関数を導入し,本来の利点を捨てることなくトレーニングを指導する。
論文 参考訳(メタデータ) (2022-03-28T08:47:49Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Domain-Smoothing Network for Zero-Shot Sketch-Based Image Retrieval [66.37346493506737]
Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) は、新しいクロスモーダル検索タスクである。
ZS-SBIRのための新しいドメイン・スムーシング・ネットワーク(DSN)を提案する。
我々のアプローチは、SketchyとTU-Berlinの両方のデータセットで最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-06-22T14:58:08Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - CrossATNet - A Novel Cross-Attention Based Framework for Sketch-Based
Image Retrieval [30.249581102239645]
スケッチベース画像検索(SBIR)の文脈におけるZSL(クロスモーダル・ゼロショット・ラーニング)のための新しいフレームワークを提案する。
共有空間の識別性を確保するためにクロスモーダル三重項損失を定義する一方で、画像領域から特徴抽出を導くための革新的なクロスモーダル注意学習戦略も提案されている。
論文 参考訳(メタデータ) (2021-04-20T12:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。