論文の概要: WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2602.23029v1
- Date: Thu, 26 Feb 2026 14:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.715513
- Title: WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval
- Title(参考訳): WISER: より広い検索、より深い思考、適応的な融合によるゼロショット合成画像検索
- Authors: Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang,
- Abstract要約: ZS-CIRは、マルチモーダルクエリがアノテートされたトリプレットをトレーニングすることなく、ターゲット画像を取得することを目的としている。
我々は,T2IとI2Iを"検索-検証-精細化"パイプラインを介して統合する,トレーニング不要のフレームワークであるWISERを提案する。
- 参考スコア(独自算出の注目度): 36.577766022251446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot Composed Image Retrieval (ZS-CIR) aims to retrieve target images given a multimodal query (comprising a reference image and a modification text), without training on annotated triplets. Existing methods typically convert the multimodal query into a single modality-either as an edited caption for Text-to-Image retrieval (T2I) or as an edited image for Image-to-Image retrieval (I2I). However, each paradigm has inherent limitations: T2I often loses fine-grained visual details, while I2I struggles with complex semantic modifications. To effectively leverage their complementary strengths under diverse query intents, we propose WISER, a training-free framework that unifies T2I and I2I via a "retrieve-verify-refine" pipeline, explicitly modeling intent awareness and uncertainty awareness. Specifically, WISER first performs Wider Search by generating both edited captions and images for parallel retrieval to broaden the candidate pool. Then, it conducts Adaptive Fusion with a verifier to assess retrieval confidence, triggering refinement for uncertain retrievals, and dynamically fusing the dual-path for reliable ones. For uncertain retrievals, WISER generates refinement suggestions through structured self-reflection to guide the next retrieval round toward Deeper Thinking. Extensive experiments demonstrate that WISER significantly outperforms previous methods across multiple benchmarks, achieving relative improvements of 45% on CIRCO (mAP@5) and 57% on CIRR (Recall@1) over existing training-free methods. Notably, it even surpasses many training-dependent methods, highlighting its superiority and generalization under diverse scenarios. Code will be released at https://github.com/Physicsmile/WISER.
- Abstract(参考訳): Zero-Shot Composed Image Retrieval (ZS-CIR)は、マルチモーダルクエリ(参照画像と修正テキストを含む)が与えられたターゲットイメージを、注釈付き三つ子をトレーニングすることなく検索することを目的としている。
既存の方法は、通常、マルチモーダルクエリを単一のモダリティに変換するが、テキスト・トゥ・イメージ検索(T2I)や画像・トゥ・イメージ検索(I2I)の編集画像である。
しかし、それぞれのパラダイムには固有の制限がある: T2Iはしばしば細粒度の視覚的詳細を失うが、I2Iは複雑なセマンティックな修正に苦労する。
多様な問合せ意図の下でそれらの相補的強みを効果的に活用するために,我々は,T2IとI2Iを"検索・検証・精細"パイプラインを通じて統合し,意図の認識と不確実性認識を明示的にモデル化する,トレーニング不要のフレームワークであるWISERを提案する。
具体的には、WISERが最初にワイドサーチを行い、編集されたキャプションと画像の両方を生成して並列検索を行い、候補プールを広げる。
そして、アダプティブ・フュージョン(Adaptive Fusion)を検証器で実行し、検索の信頼性を評価し、不確実な検索の洗練をトリガーし、信頼性の高いものに対してデュアルパスを動的に融合させる。
不確実な検索のために、WISERは構造化自己回帰を通して洗練された提案を生成し、次の検索ラウンドをより深い思考へと導く。
大規模な実験では、WISERは複数のベンチマークで従来の方法よりも大幅に優れており、CIRCO(mAP@5)では45%、CIRR(recall@1)では57%の相対的な改善を実現している。
特に、多くのトレーニング依存の手法を超越し、様々なシナリオにおけるその優位性と一般化を強調している。
コードはhttps://github.com/Physicsmile/WISER.comでリリースされる。
関連論文リスト
- MCoT-RE: Multi-Faceted Chain-of-Thought and Re-Ranking for Training-Free Zero-Shot Composed Image Retrieval [32.33545237942899]
Composed Image Retrieval (CIR) は、ギャラリーから、参照画像と修正テキストを使用してターゲット画像を取得するタスクである。
トレーニング不要なゼロショットCIRフレームワークとして再ランク付けされたChain-of-Thought(MCoT-RE)を提案する。
論文 参考訳(メタデータ) (2025-07-17T06:22:49Z) - Why Settle for One? Text-to-ImageSet Generation and Evaluation [72.55708276046124]
Text-to-ImageSet (T2IS) の生成は,ユーザ命令に基づいて,さまざまな一貫性要件を満たすイメージセットを生成することを目的としている。
トレーニング不要なフレームワークである$textbfAutoT2IS$を提案する。
また,本手法は,多くの未探索現実世界の応用を可能にする能力を示し,その実用的価値を実証する。
論文 参考訳(メタデータ) (2025-06-29T15:01:16Z) - VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval [56.12310817934239]
クロスモーダルな埋め込みは概念の袋として振る舞うが、ポーズや視点のような構造的な視覚的関係が不足している。
この制限を緩和するT2I検索のための新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。
VisRetは、T2I検索をテキスト間類似性マッチングとして再キャストする、モーダル間の類似性マッチングとベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-05-26T17:59:33Z) - TMCIR: Token Merge Benefits Composed Image Retrieval [13.457620649082504]
Composed Image Retrieval (CIR)は、参照イメージと所望の修正を記述したテキストを組み合わせたマルチモーダルクエリを使用して、ターゲットイメージを検索する。
現在のCIRのクロスモーダルな特徴融合アプローチは、意図的解釈に固有のバイアスを示す。
本稿では、2つの重要な革新を通じて合成画像の検索を促進する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T09:14:04Z) - Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval [28.018754406453937]
Composed Image Retrieval (CIR) は、参照画像によく似たターゲット画像を取得することを目的としている。
我々は、ZS-CIR(OSrCIR)の1段階反射鎖推論を提案する。
OSrCIRは、複数のタスクにわたる既存のトレーニングフリーメソッドよりも、パフォーマンスが1.80%から6.44%向上している。
論文 参考訳(メタデータ) (2024-12-15T06:22:20Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。