論文の概要: PDV: Prompt Directional Vectors for Zero-shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2502.07215v1
- Date: Tue, 11 Feb 2025 03:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:47.018663
- Title: PDV: Prompt Directional Vectors for Zero-shot Composed Image Retrieval
- Title(参考訳): PDV: ゼロショット合成画像検索のためのプロンプト方向ベクトル
- Authors: Osman Tursun, Sinan Kalkan, Simon Denman, Clinton Fookes,
- Abstract要約: Prompt Directional Vector (PDV)は、ユーザプロンプトによって誘導されるセマンティックな修正をキャプチャする、シンプルで効果的なトレーニング不要拡張である。
PDVは,(1) 文字プロンプトから画像特徴へのセマンティックトランスファーによる合成画像埋め込み,(3) 合成テキストと画像埋め込みの重み付き融合,という3つの重要な改善を実現している。
- 参考スコア(独自算出の注目度): 37.95145173167645
- License:
- Abstract: Zero-shot composed image retrieval (ZS-CIR) enables image search using a reference image and text prompt without requiring specialized text-image composition networks trained on large-scale paired data. However, current ZS-CIR approaches face three critical limitations in their reliance on composed text embeddings: static query embedding representations, insufficient utilization of image embeddings, and suboptimal performance when fusing text and image embeddings. To address these challenges, we introduce the Prompt Directional Vector (PDV), a simple yet effective training-free enhancement that captures semantic modifications induced by user prompts. PDV enables three key improvements: (1) dynamic composed text embeddings where prompt adjustments are controllable via a scaling factor, (2) composed image embeddings through semantic transfer from text prompts to image features, and (3) weighted fusion of composed text and image embeddings that enhances retrieval by balancing visual and semantic similarity. Our approach serves as a plug-and-play enhancement for existing ZS-CIR methods with minimal computational overhead. Extensive experiments across multiple benchmarks demonstrate that PDV consistently improves retrieval performance when integrated with state-of-the-art ZS-CIR approaches, particularly for methods that generate accurate compositional embeddings. The code will be publicly available.
- Abstract(参考訳): ゼロショット合成画像検索(ZS-CIR)は、大規模なペアデータで訓練された特殊なテキスト画像合成ネットワークを必要とせず、参照画像とテキストプロンプトを用いた画像検索を可能にする。
しかし、現在のZS-CIRアプローチでは、静的クエリの埋め込み表現、画像の埋め込みの不十分な利用、テキストと画像の埋め込みを融合する際の最適化性能の3つの重要な制限に直面している。
これらの課題に対処するために,ユーザプロンプトによって誘導されるセマンティックな修正をキャプチャする,シンプルで効果的なトレーニング不要の強化であるPrompt Directional Vector (PDV)を導入する。
PDVは,(1) 文字プロンプトから画像特徴へのセマンティックトランスファーによる合成画像埋め込み,(3) 視覚的・セマンティックな類似性のバランスによって検索を強化する合成テキストと画像埋め込みの重み付けによる融合である。
本手法は,計算オーバーヘッドを最小限に抑えた既存のZS-CIR手法のプラグアンドプレイ拡張として機能する。
複数のベンチマークにわたる大規模な実験により、PDVは最先端のZS-CIRアプローチと統合した場合、特に正確な合成埋め込みを生成する方法において、常に検索性能が向上することが示された。
コードは公開されます。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval [13.315951821189538]
シーンテキスト検索は、画像ギャラリーからクエリテキストを含むすべての画像を見つけることを目的としている。
現在の取り組みでは、複雑なテキスト検出および/または認識プロセスを必要とする光学文字認識(OCR)パイプラインを採用する傾向にある。
我々は,OCRのないシーンテキスト検索のためのCLIP(Contrastive Language- Image Pre-Trening)の本質的な可能性について検討する。
論文 参考訳(メタデータ) (2024-08-01T10:25:14Z) - Reducing Task Discrepancy of Text Encoders for Zero-Shot Composed Image Retrieval [34.065449743428005]
Composed Image Retrieval (CIR) は、参照画像と条件付きテキストに基づいてターゲット画像を取得することを目的としており、制御可能な検索を可能にする。
本稿では,テキストエンコーダ用プラグアンドプレイトレーニングスキームであるComposeed Image Retrieval (RTD) のためのテキストエンコーダのタスク離散化について紹介する。
また,提案手法を改善するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:49:28Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。