論文の概要: Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning
- arxiv url: http://arxiv.org/abs/2407.04207v2
- Date: Tue, 23 Jul 2024 01:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 22:04:29.219537
- Title: Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning
- Title(参考訳): マルチモーダル・プロンプト・ラーニングによるゼロショット・スケッチに基づく画像検索
- Authors: Mainak Singha, Ankit Jha, Divyam Gupta, Pranav Singla, Biplab Banerjee,
- Abstract要約: 凍結したCLIPバックボーンで動作するように設計された,新しいマルチモーダル・プロンプト学習方式であるSpLIPを紹介する。
SpLIPは双方向のプロンプト共有戦略を実装し、CLIPのビジュアルエンコーダとテキストエンコーダ間の相互知識交換を可能にする。
埋め込み空間をさらに洗練するための2つの革新的な戦略を提案する。
- 参考スコア(独自算出の注目度): 11.033050922826934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenges inherent in sketch-based image retrieval (SBIR) across various settings, including zero-shot SBIR, generalized zero-shot SBIR, and fine-grained zero-shot SBIR, by leveraging the vision-language foundation model CLIP. While recent endeavors have employed CLIP to enhance SBIR, these approaches predominantly follow uni-modal prompt processing and overlook to exploit CLIP's integrated visual and textual capabilities fully. To bridge this gap, we introduce SpLIP, a novel multi-modal prompt learning scheme designed to operate effectively with frozen CLIP backbones. We diverge from existing multi-modal prompting methods that treat visual and textual prompts independently or integrate them in a limited fashion, leading to suboptimal generalization. SpLIP implements a bi-directional prompt-sharing strategy that enables mutual knowledge exchange between CLIP's visual and textual encoders, fostering a more cohesive and synergistic prompt processing mechanism that significantly reduces the semantic gap between the sketch and photo embeddings. In addition to pioneering multi-modal prompt learning, we propose two innovative strategies for further refining the embedding space. The first is an adaptive margin generation for the sketch-photo triplet loss, regulated by CLIP's class textual embeddings. The second introduces a novel task, termed conditional cross-modal jigsaw, aimed at enhancing fine-grained sketch-photo alignment by implicitly modeling sketches' viable patch arrangement using knowledge of unshuffled photos. Our comprehensive experimental evaluations across multiple benchmarks demonstrate the superior performance of SpLIP in all three SBIR scenarios. Project page: https://mainaksingha01.github.io/SpLIP/ .
- Abstract(参考訳): 我々は,ゼロショットSBIR,一般化ゼロショットSBIR,微粒ゼロショットSBIRなど,スケッチベース画像検索(SBIR)に固有の課題に,視覚言語基盤モデルCLIPを活用して対処する。
最近の取り組みでは、SBIRを強化するためにCLIPを使用しているが、これらのアプローチは主に、一様プロンプト処理と、CLIPの統合されたビジュアルおよびテキスト機能を完全に活用するために見落としている。
このギャップを埋めるために,凍結したCLIPバックボーンで効果的に動作するように設計された,新しいマルチモーダル・プロンプト学習方式であるSpLIPを導入する。
我々は、視覚的およびテキスト的プロンプトを独立に扱う既存のマルチモーダルプロンプト手法や、限定的な方法でそれらを統合する手法から分岐し、準最適一般化をもたらす。
SpLIPは、CLIPの視覚的エンコーダとテキスト的エンコーダ間の相互知識交換を可能にする双方向のプロンプト共有戦略を実装し、スケッチと写真埋め込みの間のセマンティックギャップを著しく低減するより凝集的で相乗的なプロンプト処理機構を育成する。
マルチモーダルな素早い学習の先駆けとして,埋め込み空間をさらに洗練するための2つの革新的な戦略を提案する。
1つ目は、CLIPのクラステキスト埋め込みによって制御されるスケッチ・フォトトリプルト損失に対する適応的なマージン生成である。
2つ目は、未開の写真の知識を用いてスケッチの実行可能なパッチアレンジメントを暗黙的にモデル化することで、きめ細かなスケッチ写真アライメントを強化することを目的とした、条件付きクロスモーダルジグソーと呼ばれる新しいタスクを紹介している。
複数のベンチマークを対象とした総合的な実験的評価により,SBIRの3つのシナリオすべてにおいて,SpLIPの優れた性能が示された。
プロジェクトページ:https://mainaksingha01.github.io/SpLIP/。
関連論文リスト
- LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。
LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。
提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [57.84148140637513]
Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。
OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-21T07:15:37Z) - GOPro: Generate and Optimize Prompts in CLIP using Self-Supervised
Learning [14.532939492926406]
我々は、CLIPの対照的な損失とSSLの損失の課題を克服するために、GOProと呼ばれる素早い学習ベースモデルを提案する。
GOroは、CLIPとSSLの長所を原則的に組み合わせて、3つの損失目標すべてに対してエンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2023-08-22T17:53:26Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Extending CLIP's Image-Text Alignment to Referring Image Segmentation [48.26552693472177]
Referring Image(RIS)は、自然言語で記述されたインスタンスをセグメント化することを目的とした、クロスモーダルなタスクである。
RISCLIPは,RISのためのCLIPのクロスモーダルな性質を効果的に活用する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-06-14T13:27:28Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。