論文の概要: FIRE-CIR: Fine-grained Reasoning for Composed Fashion Image Retrieval
- arxiv url: http://arxiv.org/abs/2604.09114v1
- Date: Fri, 10 Apr 2026 08:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.784184
- Title: FIRE-CIR: Fine-grained Reasoning for Composed Fashion Image Retrieval
- Title(参考訳): FIRE-CIR:合成ファッション画像検索のためのきめ細かい推論
- Authors: François Gardères, Camille-Sovanneary Gauthier, Jean Ponce, Shizhe Chen,
- Abstract要約: 合成画像検索(CIR)は、テキスト記述によって修正された参照画像を表す対象画像の検索を目的としている。
近年の視覚言語モデル (VLM) は、画像とテキストを共有空間に埋め込んで有望なCIR性能を実現し、検索を行う。
FIRE-CIRは、合成推論と解釈可能性をCIRのファッションにもたらすモデルである。
- 参考スコア(独自算出の注目度): 24.83808020078209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed image retrieval (CIR) aims to retrieve a target image that depicts a reference image modified by a textual description. While recent vision-language models (VLMs) achieve promising CIR performance by embedding images and text into a shared space for retrieval, they often fail to reason about what to preserve and what to change. This limitation hinders interpretability and yields suboptimal results, particularly in fine-grained domains like fashion. In this paper, we introduce FIRE-CIR, a model that brings compositional reasoning and interpretability to fashion CIR. Instead of relying solely on embedding similarity, FIRE-CIR performs question-driven visual reasoning: it automatically generates attribute-focused visual questions derived from the modification text, and verifies the corresponding visual evidence in both reference and candidate images. To train such a reasoning system, we automatically construct a large-scale fashion-specific visual question answering dataset, containing questions requiring either single- or dual-image analysis. During retrieval, our model leverages this explicit reasoning to re-rank candidate results, filtering out images inconsistent with the intended modifications. Experimental results on the Fashion IQ benchmark show that FIRE-CIR outperforms state-of-the-art methods in retrieval accuracy. It also provides interpretable, attribute-level insights into retrieval decisions.
- Abstract(参考訳): 合成画像検索(CIR)は、テキスト記述によって修正された参照画像を表す対象画像の検索を目的としている。
近年の視覚言語モデル(VLM)は、画像とテキストを共有空間に埋め込んで検索することで、有望なCIR性能を達成するが、保存すべきものや変更すべきものについては、しばしば推論に失敗する。
この制限は解釈可能性を妨げるものであり、特にファッションのようなきめ細かい領域において、準最適結果をもたらす。
本稿では,合成推論と解釈可能性をファッションCIRにもたらすモデルであるFIRE-CIRを紹介する。
FIRE-CIRは、埋め込み類似性のみに頼るのではなく、修正テキストから派生した属性中心の視覚的質問を自動的に生成し、参照画像と候補画像の両方で対応する視覚的証拠を検証する。
このような推論システムを訓練するために、我々は、大規模でファッション特有の視覚的質問応答データセットを自動構築し、単一画像または二重画像分析を必要とする質問を含む。
検索中、この明示的な推論を利用して候補結果を再ランクし、意図した修正と矛盾した画像をフィルタリングする。
Fashion IQ ベンチマーク実験の結果,FIRE-CIR は検索精度において最先端の手法よりも優れていた。
また、検索決定に対する解釈可能な属性レベルの洞察を提供する。
関連論文リスト
- DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval [53.482391830683014]
合成画像検索(CIR)は、参照画像と、意図した変更を特定する修正テキストとを共同で解釈することにより、対象画像を検索するタスクに対処する。
既存のほとんどの手法は、基底の真理像を唯一の正の例として扱い、残りの全ての画像を負の例として扱う対照的な学習フレームワークの上に構築されている。
学習可能な属性重みとターゲットの相対的負サンプリングによるクエリ埋め込みを提案する。
論文 参考訳(メタデータ) (2026-03-04T13:17:44Z) - Instance-Level Composed Image Retrieval [34.04479584450632]
i-CIRは、インスタンスレベルのクラス定義に焦点を当てた、新しい評価データセットである。
その設計とキュレーションプロセスは、将来の研究を促進するためにデータセットをコンパクトに保つ。
事前学習された視覚・言語モデル(VLM)を,BASICと呼ばれる学習自由なアプローチで活用する。
論文 参考訳(メタデータ) (2025-10-29T10:57:59Z) - TMCIR: Token Merge Benefits Composed Image Retrieval [13.457620649082504]
Composed Image Retrieval (CIR)は、参照イメージと所望の修正を記述したテキストを組み合わせたマルチモーダルクエリを使用して、ターゲットイメージを検索する。
現在のCIRのクロスモーダルな特徴融合アプローチは、意図的解釈に固有のバイアスを示す。
本稿では、2つの重要な革新を通じて合成画像の検索を促進する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T09:14:04Z) - FineCIR: Explicit Parsing of Fine-Grained Modification Semantics for Composed Image Retrieval [48.63758678240123]
Composed Image Retrieval (CIR)は、参照画像と修正テキストからなるマルチモーダルクエリによる画像検索を容易にする。
既存のCIRデータセットは主に粗粒度修正テキスト(CoarseMT)を使用し、粗粒度検索意図を不適切にキャプチャする。
我々は、不正確な正のサンプルを最小化し、修正意図を正確に識別するCIRシステムの能力を向上する頑健なCIRデータアノテーションパイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-27T09:34:21Z) - VQA4CIR: Boosting Composed Image Retrieval with Visual Question
Answering [68.47402250389685]
この作業は、CIRのパフォーマンスを高めるために、Visual Question Answering(VQA)の視点を提供する。
結果として生じるVQA4CIRは後処理のアプローチであり、既存のCIRメソッドに直接接続することができる。
実験の結果,提案手法はCIRRおよびFashion-IQデータセット上での最先端CIR法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T15:56:08Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Image Retrieval on Real-life Images with Pre-trained Vision-and-Language
Models [41.7254780975984]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。
CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。
比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T13:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。