論文の概要: Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration
- arxiv url: http://arxiv.org/abs/2601.14060v1
- Date: Tue, 20 Jan 2026 15:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.381436
- Title: Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration
- Title(参考訳): 相補的視覚・セマンティック統合によるファイングラインドゼロショット合成画像検索
- Authors: Yongcong Ye, Kai Zhang, Yanghai Zhang, Enhong Chen, Longfei Li, Jun Zhou,
- Abstract要約: ゼロショット合成画像検索(ZS-CIR)は急速に発展し,実用化が進んでいる分野である。
既存のZS-CIR法は、細粒度の変化を捉え、視覚情報と意味情報を効果的に統合するのに苦労することが多い。
補足型ビジュアルセマンティック統合を用いたファイングラインドゼロショット合成画像検索手法を提案する。
- 参考スコア(独自算出の注目度): 64.12127577975696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot composed image retrieval (ZS-CIR) is a rapidly growing area with significant practical applications, allowing users to retrieve a target image by providing a reference image and a relative caption describing the desired modifications. Existing ZS-CIR methods often struggle to capture fine-grained changes and integrate visual and semantic information effectively. They primarily rely on either transforming the multimodal query into a single text using image-to-text models or employing large language models for target image description generation, approaches that often fail to capture complementary visual information and complete semantic context. To address these limitations, we propose a novel Fine-Grained Zero-Shot Composed Image Retrieval method with Complementary Visual-Semantic Integration (CVSI). Specifically, CVSI leverages three key components: (1) Visual Information Extraction, which not only extracts global image features but also uses a pre-trained mapping network to convert the image into a pseudo token, combining it with the modification text and the objects most likely to be added. (2) Semantic Information Extraction, which involves using a pre-trained captioning model to generate multiple captions for the reference image, followed by leveraging an LLM to generate the modified captions and the objects most likely to be added. (3) Complementary Information Retrieval, which integrates information extracted from both the query and database images to retrieve the target image, enabling the system to efficiently handle retrieval queries in a variety of situations. Extensive experiments on three public datasets (e.g., CIRR, CIRCO, and FashionIQ) demonstrate that CVSI significantly outperforms existing state-of-the-art methods. Our code is available at https://github.com/yyc6631/CVSI.
- Abstract(参考訳): ゼロショット合成画像検索(ゼロショット合成画像検索、ZS-CIR)は、利用者が所望の修正を記述した参照画像と相対キャプションを提供することで、ターゲット画像を取得することができる、重要な実用用途を持つ急速に成長する領域である。
既存のZS-CIR法は、細粒度の変化を捉え、視覚情報と意味情報を効果的に統合するのに苦労することが多い。
主に、イメージ・トゥ・テキストモデルを使用してマルチモーダルクエリを単一のテキストに変換するか、ターゲット画像記述生成に大規模言語モデルを使用するか、補完的な視覚情報や完全な意味的コンテキストを捉えるのに失敗するアプローチに依存する。
これらの制約に対処するために,補足型ビジュアルセマンティック統合(CVSI)を用いたファイングレードゼロショット合成画像検索手法を提案する。
CVSIは、(1)グローバルな画像の特徴を抽出するだけでなく、事前訓練されたマッピングネットワークを使用して、画像を擬似トークンに変換し、修正テキストと、最も追加される可能性が最も高いオブジェクトを組み合わせる。
2) 事前学習したキャプションモデルを用いて参照画像の複数のキャプションを生成するセマンティック情報抽出を行い, LLMを活用して修正したキャプションと最も追加しやすいオブジェクトを生成する。
(3)クエリ画像とデータベース画像から抽出した情報を統合して対象画像を検索する補完情報検索システムにより,様々な状況において効率的に検索クエリを処理できる。
3つの公開データセット(例えば、CIRR、CIRCO、FashionIQ)に対する大規模な実験は、CVSIが既存の最先端手法を大幅に上回っていることを示している。
私たちのコードはhttps://github.com/yyc6631/CVSI.comで公開されています。
関連論文リスト
- Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data [39.17652541259225]
Composed Image Retrieval (CIR)は、テキストに付加された参照画像と一致する画像を取得するタスクである。
画像とテキストのモダリティを効果的に組み合わせた埋め込み型再構成アーキテクチャを提案する。
InstructCIRというモデルでは、CIRRおよびFashionIQデータセット上のゼロショット合成画像検索において、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-04-01T14:03:46Z) - Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval [60.20835288280572]
本稿では,FTI4CIR という ZS-CIR のためのテキスト・インバージョン・ネットワークを提案する。
FTI4CIRは、微粒な擬ワードトークンマッピングとトリワイズキャプションベースのセマンティック正規化の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-03-25T02:51:25Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。