論文の概要: Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2602.00813v2
- Date: Tue, 03 Feb 2026 14:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.83527
- Title: Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval
- Title(参考訳): ゼロショット合成画像検索のための学習用パラコスムの生成
- Authors: Tong Wang, Yunhan Zhao, Shu Kong,
- Abstract要約: Composed Image Retrieval (CIR)は、マルチモーダルクエリを使用してデータベースからターゲットイメージを取得するタスクである。
CIRの課題は、このメンタルイメージ'は物理的に利用できておらず、クエリによって暗黙的にのみ定義されていることだ。
対照的に、より正確なマッチングのために「心像」を直接生成することで、第一原理からCIRに対処する。
- 参考スコア(独自算出の注目度): 21.229497760570556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed Image Retrieval (CIR) is the task of retrieving a target image from a database using a multimodal query, which consists of a reference image and a modification text. The text specifies how to alter the reference image to form a ``mental image'', based on which CIR should find the target image in the database. The fundamental challenge of CIR is that this ``mental image'' is not physically available and is only implicitly defined by the query. The contemporary literature pursues zero-shot methods and uses a Large Multimodal Model (LMM) to generate a textual description for a given multimodal query, and then employs a Vision-Language Model (VLM) for textual-visual matching to search the target image. In contrast, we address CIR from first principles by directly generating the ``mental image'' for more accurate matching. Particularly, we prompt an LMM to generate a ``mental image'' for a given multimodal query and propose to use this ``mental image'' to search for the target image. As the ``mental image'' has a synthetic-to-real domain gap with real images, we also generate a synthetic counterpart for each real image in the database to facilitate matching. In this sense, our method uses LMM to construct a ``paracosm'', where it matches the multimodal query and database images. Hence, we call this method Paracosm. Notably, Paracosm is a training-free zero-shot CIR method. It significantly outperforms existing zero-shot methods on four challenging benchmarks, achieving state-of-the-art performance for zero-shot CIR.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、参照画像と修正テキストからなるマルチモーダルクエリを用いてデータベースからターゲット画像を取得するタスクである。
テキストは、データベース内のターゲットイメージを見つけるためのCIRに基づいて、参照イメージを `mental image'' に変換する方法を指定する。
CIRの基本的な課題は、この `mental image'' は物理的に利用できておらず、クエリによって暗黙的にのみ定義されていることである。
現代文献ではゼロショット法を追求し、LMM(Large Multimodal Model)を用いて、与えられたマルチモーダルクエリのテキスト記述を生成し、次に、テキスト・ビジュアルマッチングにVLM(Vision-Language Model)を用いて対象画像の検索を行う。
対照的に、より正確なマッチングのために `mental image'' を直接生成することで、第一原理から CIR に対処する。
特に, LMMに与えられたマルチモーダルクエリに対して `mental image'' を生成するように促し, この `mental image' を用いて対象画像の検索を提案する。
実画像との合成と実領域のギャップが生じるため、データベース内の各実画像に対して合成の相違も生成し、マッチングを容易にする。
この意味では、LMMを用いて ``paracosm'' を構築し、マルチモーダルクエリとデータベースイメージとをマッチングする。
そのため、この手法をParacosmと呼ぶ。
特に、Paracosmは訓練なしゼロショットCIR法である。
4つの挑戦的なベンチマークで既存のゼロショット手法よりも大幅に優れており、ゼロショットCIRの最先端性能を実現している。
関連論文リスト
- Multimodal Reasoning Agent for Zero-Shot Composed Image Retrieval [52.709090256954276]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、合成クエリによってターゲット画像を取得することを目的としている。
本稿では,ZS-CIRにMRA(Multimodal Reasoning Agent)を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:17:50Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Zero-shot Composed Image Retrieval Considering Query-target Relationship Leveraging Masked Image-text Pairs [44.48400303207482]
ゼロショット合成画像検索(CIR)の目的は、クエリ画像とクエリテキストを用いてターゲット画像を取得することである。
既存の方法は、テキスト変換ネットワークを使用して、クエリイメージを擬似語に変換し、画像とテキストを構成する。
マスク付き画像テキストペアを用いてエンドツーエンドに学習するゼロショットCIR手法を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:10:30Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。