論文の概要: Zero Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2506.06602v1
- Date: Sat, 07 Jun 2025 00:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.35403
- Title: Zero Shot Composed Image Retrieval
- Title(参考訳): ゼロショット合成画像検索
- Authors: Santhosh Kakarla, Gautama Shastry Bulusu Venkata,
- Abstract要約: 合成画像検索(CIR)により、ユーザは、きめ細かいテキスト編集を施すことで、ターゲット画像を見つけることができる。
Zero-shot CIRは、イメージとテキストを別途トレーニング済みの視覚言語エンコーダで埋め込むもので、FashionIQベンチマークで20-25%のRecall@10にしか達しない。
我々は、視覚的特徴とテキスト的特徴を1つの埋め込みに融合する軽量Q-FormerでBLIP-2を微調整することで、これを改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed image retrieval (CIR) allows a user to locate a target image by applying a fine-grained textual edit (e.g., ``turn the dress blue'' or ``remove stripes'') to a reference image. Zero-shot CIR, which embeds the image and the text with separate pretrained vision-language encoders, reaches only 20-25\% Recall@10 on the FashionIQ benchmark. We improve this by fine-tuning BLIP-2 with a lightweight Q-Former that fuses visual and textual features into a single embedding, raising Recall@10 to 45.6\% (shirt), 40.1\% (dress), and 50.4\% (top-tee) and increasing the average Recall@50 to 67.6\%. We also examine Retrieval-DPO, which fine-tunes CLIP's text encoder with a Direct Preference Optimization loss applied to FAISS-mined hard negatives. Despite extensive tuning of the scaling factor, index, and sampling strategy, Retrieval-DPO attains only 0.02\% Recall@10 -- far below zero-shot and prompt-tuned baselines -- because it (i) lacks joint image-text fusion, (ii) uses a margin objective misaligned with top-$K$ metrics, (iii) relies on low-quality negatives, and (iv) keeps the vision and Transformer layers frozen. Our results show that effective preference-based CIR requires genuine multimodal fusion, ranking-aware objectives, and carefully curated negatives.
- Abstract(参考訳): 合成画像検索(CIR)により、ユーザは、参照画像にきめ細かいテキスト編集(eg, ``turn the dress blue''または ``remove stripes'')を適用することにより、ターゲット画像の特定が可能になる。
Zero-shot CIRは、イメージとテキストを別途トレーニング済みの視覚言語エンコーダで埋め込むもので、FashionIQベンチマークで20-25\% Recall@10にしか達しません。
BLIP-2を軽量なQ-Formerで微調整し、視覚的特徴とテキスト的特徴を単一の埋め込みに融合させ、Recall@10を45.6\%(シャツ)、40.1\%(ドレス)、50.4\%(トップティー)に引き上げ、平均的なRecall@50を67.6\%に増やす。
また,CLIPのテキストエンコーダを微調整したRetrieval-DPOについても検討した。
スケーリング係数、インデックス、サンプリング戦略の広範なチューニングにもかかわらず、Retrieval-DPOは、0.02\% Recall@10 -- ゼロショットとプロンプトチューニングされたベースラインよりもはるかに低い -- しか到達できない。
(i)画像とテキストの融合が欠如している。
(ii) 最上位のK$メトリクスと不一致のマージン目標を使用する。
(三)低品質な負に依拠し、
(iv) ビジョンとトランスフォーマーのレイヤを凍結させておく。
この結果から, 効果的な選好に基づくCIRには, 真のマルチモーダル融合, ランキングアウェアの目的, 慎重にキュレートされた負の操作が必要であることが示唆された。
関連論文リスト
- Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval [28.018754406453937]
Composed Image Retrieval (CIR) は、参照画像によく似たターゲット画像を取得することを目的としている。
我々は、ZS-CIR(OSrCIR)の1段階反射鎖推論を提案する。
OSrCIRは、複数のタスクにわたる既存のトレーニングフリーメソッドよりも、パフォーマンスが1.80%から6.44%向上している。
論文 参考訳(メタデータ) (2024-12-15T06:22:20Z) - An Efficient Post-hoc Framework for Reducing Task Discrepancy of Text Encoders for Composed Image Retrieval [34.065449743428005]
Composed Image Retrieval (CIR) は、参照画像と条件付きテキストに基づいてターゲット画像を取得することを目的としており、制御可能な画像検索を可能にする。
従来のZero-Shot (ZS) CIRメソッドは、画像埋め込みをテキストトークン埋め込み空間に投影することで、高価なトレーニング用CIRトリプルの必要性を回避している。
本稿では,プロジェクションベースのCIR手法を補完する効率的なテキストのみのフレームワークであるReduceing Taskrepancy of Texts (RTD)を紹介する。
論文 参考訳(メタデータ) (2024-06-13T14:49:28Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Expressive Losses for Verified Robustness via Convex Combinations [67.54357965665676]
本研究では, 過近似係数と異なる表現的損失に対する性能分布の関係について検討した。
表現性が不可欠である一方で、最悪の場合の損失のより良い近似は、必ずしも優れた堅牢性-正確性トレードオフに結びついていないことを示す。
論文 参考訳(メタデータ) (2023-05-23T12:20:29Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Reducing Predictive Feature Suppression in Resource-Constrained
Contrastive Image-Caption Retrieval [65.33981533521207]
我々は、リソース制約のあるICR手法における予測的特徴抑圧を減らすアプローチを提案する:潜在目標デコーディング(LTD)
LTDは、汎用文エンコーダの潜時空間で入力キャプションを再構成し、画像及びキャプションエンコーダが予測的特徴を抑制するのを防止する。
実験の結果,入力空間における入力キャプションの再構成とは異なり,LTDはリコール@k,r精度,nDCGスコアを高くすることで,予測的特徴抑制を低減できることがわかった。
論文 参考訳(メタデータ) (2022-04-28T09:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。