論文の概要: Dual-Modal Prompting for Sketch-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2404.18695v1
- Date: Mon, 29 Apr 2024 13:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:38:04.335552
- Title: Dual-Modal Prompting for Sketch-Based Image Retrieval
- Title(参考訳): スケッチに基づく画像検索のためのデュアルモーダルプロンプト
- Authors: Liying Gao, Bingliang Jiao, Peng Wang, Shizhou Zhang, Hanwang Zhang, Yanning Zhang,
- Abstract要約: 本稿では、適応的なプロンプト戦略を設計したデュアルモーダルCLIP(DP-CLIP)ネットワークを提案する。
ターゲットカテゴリとテキストカテゴリラベル内に一連の画像を用いて,カテゴリ適応型プロンプトトークンとチャネルスケールをそれぞれ構成する。
我々のDP-CLIPは、Sketchyデータセット上のAcc.@1において、最先端の微細ゼロショット法を7.3%向上させる。
- 参考スコア(独自算出の注目度): 76.12076969949062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sketch-based image retrieval (SBIR) associates hand-drawn sketches with their corresponding realistic images. In this study, we aim to tackle two major challenges of this task simultaneously: i) zero-shot, dealing with unseen categories, and ii) fine-grained, referring to intra-category instance-level retrieval. Our key innovation lies in the realization that solely addressing this cross-category and fine-grained recognition task from the generalization perspective may be inadequate since the knowledge accumulated from limited seen categories might not be fully valuable or transferable to unseen target categories. Inspired by this, in this work, we propose a dual-modal prompting CLIP (DP-CLIP) network, in which an adaptive prompting strategy is designed. Specifically, to facilitate the adaptation of our DP-CLIP toward unpredictable target categories, we employ a set of images within the target category and the textual category label to respectively construct a set of category-adaptive prompt tokens and channel scales. By integrating the generated guidance, DP-CLIP could gain valuable category-centric insights, efficiently adapting to novel categories and capturing unique discriminative clues for effective retrieval within each target category. With these designs, our DP-CLIP outperforms the state-of-the-art fine-grained zero-shot SBIR method by 7.3% in Acc.@1 on the Sketchy dataset. Meanwhile, in the other two category-level zero-shot SBIR benchmarks, our method also achieves promising performance.
- Abstract(参考訳): スケッチベースの画像検索(SBIR)は、手描きのスケッチとそれに対応するリアルなイメージを関連付ける。
本研究では,この課題の2つの主要な課題に同時に取り組むことを目的としている。
一 目に見えないカテゴリーに対処するゼロショット
二 細粒で、カテゴリー内インスタンスレベルの検索を参照すること。
私たちの重要な革新は、一般化の観点から、このクロスカテゴリときめ細かな認識タスクにのみ取り組むことが不十分である、という認識にある。
そこで本研究では,CLIP(DP-CLIP)ネットワークに適応的なプロンプト戦略を設計したデュアルモーダルプロンプトを提案する。
具体的には、予測不能なターゲットカテゴリへのDP-CLIPの適応を容易にするために、ターゲットカテゴリとテキストカテゴリラベル内の一連の画像を用いて、カテゴリ適応プロンプトトークンとチャネルスケールのセットを構築する。
生成したガイダンスを統合することで、DP-CLIPは有用なカテゴリ中心の洞察を得ることができ、新しいカテゴリに効率よく適応し、各カテゴリ内で効果的な検索のためのユニークな識別的手がかりを捉えることができる。
これらの設計により、DP-CLIPはAccの7.3%の精度で、最先端の微細ゼロショットSBIR法より優れている。
Sketchyデータセットの@1。
一方、他の2つのカテゴリレベルのゼロショットSBIRベンチマークでは、提案手法は有望な性能を達成する。
関連論文リスト
- Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification [8.139529179222844]
Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。
CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。
2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-15T12:51:57Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Automatically Discovering Novel Visual Categories with Self-supervised
Prototype Learning [68.63910949916209]
本稿では,大規模な画像収集において未知のカテゴリを識別することを目的とした,新しいカテゴリ発見(NCD)の課題に取り組む。
本稿では,プロトタイプ表現学習とプロトタイプ自己学習という,2つの主要な段階からなる適応型プロトタイプ学習手法を提案する。
本研究では,4つのベンチマークデータセットについて広範な実験を行い,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-08-01T16:34:33Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Progressive Co-Attention Network for Fine-grained Visual Classification [20.838908090777885]
きめ細かい視覚分類は、同じカテゴリ内の複数のサブカテゴリに属する画像を認識することを目的としている。
既存のほとんどの方法は個々の画像のみを入力とする。
そこで本研究では,pca-net(progressive co-attention network)と呼ばれる効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T10:19:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。