論文の概要: Soft Filtering: Guiding Zero-shot Composed Image Retrieval with Prescriptive and Proscriptive Constraints
- arxiv url: http://arxiv.org/abs/2512.20781v1
- Date: Tue, 23 Dec 2025 21:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.604956
- Title: Soft Filtering: Guiding Zero-shot Composed Image Retrieval with Prescriptive and Proscriptive Constraints
- Title(参考訳): ソフトフィルタリング: 説明的制約と説明的制約によるゼロショット合成画像検索の誘導
- Authors: Youjin Jung, Seongwoo Cho, Hyun-seok Min, Sungchul Choi,
- Abstract要約: Composed Image Retrieval (CIR) は、参照画像と修正テキストで表現されたユーザ意図に合わせたターゲット画像を見つけることを目的としている。
現在のCIRベンチマークでは、修正テキストの曖昧さを見越して、クエリ毎に1つの正しいターゲットを仮定している。
テキスト制約付きソフトフィルタ(SoFT)を提案する。
- 参考スコア(独自算出の注目度): 3.5491867489872413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed Image Retrieval (CIR) aims to find a target image that aligns with user intent, expressed through a reference image and a modification text. While Zero-shot CIR (ZS-CIR) methods sidestep the need for labeled training data by leveraging pretrained vision-language models, they often rely on a single fused query that merges all descriptive cues of what the user wants, tending to dilute key information and failing to account for what they wish to avoid. Moreover, current CIR benchmarks assume a single correct target per query, overlooking the ambiguity in modification texts. To address these challenges, we propose Soft Filtering with Textual constraints (SoFT), a training-free, plug-and-play filtering module for ZS-CIR. SoFT leverages multimodal large language models (LLMs) to extract two complementary constraints from the reference-modification pair: prescriptive (must-have) and proscriptive (must-avoid) constraints. These serve as semantic filters that reward or penalize candidate images to re-rank results, without modifying the base retrieval model or adding supervision. In addition, we construct a two-stage dataset pipeline that refines CIR benchmarks. We first identify multiple plausible targets per query to construct multi-target triplets, capturing the open-ended nature of user intent. Then guide multimodal LLMs to rewrite the modification text to focus on one target, while referencing contrastive distractors to ensure precision. This enables more comprehensive and reliable evaluation under varying ambiguity levels. Applied on top of CIReVL, a ZS-CIR retriever, SoFT raises R@5 to 65.25 on CIRR (+12.94), mAP@50 to 27.93 on CIRCO (+6.13), and R@50 to 58.44 on FashionIQ (+4.59), demonstrating broad effectiveness.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像と修正テキストで表現されたユーザ意図に合わせたターゲット画像を見つけることを目的としている。
Zero-shot CIR (ZS-CIR) メソッドは、事前訓練された視覚言語モデルを活用することで、ラベル付きトレーニングデータの必要性を脇に置いているが、それらはしばしば、ユーザが望むことのすべての記述的なキューをマージする単一の融合クエリに依存し、キー情報を希薄にし、避けたいことを説明できない傾向にある。
さらに、現在のCIRベンチマークでは、修正テキストの曖昧さを見越して、クエリ毎に単一の正しいターゲットを仮定している。
これらの課題に対処するため,ZS-CIRのための訓練不要なプラグイン・アンド・プレイフィルタモジュールであるSoFTを提案する。
SoFTはマルチモーダルな大言語モデル(LLM)を利用して、規範的(must-have)と規範的(must-avoid)の2つの補完的制約を抽出する。
これらは、ベース検索モデルを変更したり、監督を追加することなく、候補画像に報酬を与えたり、検索結果を再ランクさせたりするためのセマンティックフィルタとして機能する。
さらに,CIRベンチマークを改良する2段階データセットパイプラインを構築した。
まず、クエリ毎に複数のもっともらしいターゲットを識別し、複数ターゲットのトリプレットを構築し、ユーザ意図のオープンな性質をキャプチャする。
次に、マルチモーダル LLM をガイドし、修正テキストを書き直して1つのターゲットにフォーカスし、コントラストトラクタを参照して精度を確保する。
これにより、様々なあいまいさレベルの下でより包括的で信頼性の高い評価が可能になる。
ZS-CIRレトリバーであるCIReVL上に応用されたSoFTは、CIRR(+12.94)でR@5から65.25に、CIRCO(+6.13)でmAP@50から27.93に、FashionIQ(+4.59)でR@50から58.44に、幅広い効果を示す。
関連論文リスト
- UNION: A Lightweight Target Representation for Efficient Zero-Shot Image-Guided Retrieval with Optional Textual Queries [3.6723140587841656]
Image-Guided Retrieval with Optional Text (IGROT) は、クエリがアンカーイメージで構成され、テキストに付随するか否かに関わらず、意味論的に関連付けられたターゲットイメージを検索する一般的な検索設定である。
本研究では,低データ管理下でIGROTに対処するため,Null-textプロンプトでイメージを融合させる軽量で汎用的なターゲット表現であるUNIONを導入する。
論文 参考訳(メタデータ) (2025-11-27T09:28:28Z) - SETR: A Two-Stage Semantic-Enhanced Framework for Zero-Shot Composed Image Retrieval [4.230223288110963]
Zero-shot Composed Image Retrieval (ZS-CIR)は、トリプルトアノテーションに頼ることなく、参照画像と相対テキストが与えられたターゲット画像を取得することを目的としている。
既存のCLIPベースの手法では、(1)組合ベースの特徴融合は、意図した変更を希釈する無関係な背景の詳細を担いながら、すべての視覚的手がかりを無差別に集約し、(2)CLIP埋め込みからのグローバルなコサイン類似性は、きめ細かいセマンティックな関係を解く能力に欠ける。
論文 参考訳(メタデータ) (2025-09-30T09:41:52Z) - Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - FineCIR: Explicit Parsing of Fine-Grained Modification Semantics for Composed Image Retrieval [48.63758678240123]
Composed Image Retrieval (CIR)は、参照画像と修正テキストからなるマルチモーダルクエリによる画像検索を容易にする。
既存のCIRデータセットは主に粗粒度修正テキスト(CoarseMT)を使用し、粗粒度検索意図を不適切にキャプチャする。
我々は、不正確な正のサンプルを最小化し、修正意図を正確に識別するCIRシステムの能力を向上する頑健なCIRデータアノテーションパイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-27T09:34:21Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval [28.018754406453937]
Composed Image Retrieval (CIR) は、参照画像によく似たターゲット画像を取得することを目的としている。
我々は、ZS-CIR(OSrCIR)の1段階反射鎖推論を提案する。
OSrCIRは、複数のタスクにわたる既存のトレーニングフリーメソッドよりも、パフォーマンスが1.80%から6.44%向上している。
論文 参考訳(メタデータ) (2024-12-15T06:22:20Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。