論文の概要: FineCIR: Explicit Parsing of Fine-Grained Modification Semantics for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2503.21309v1
- Date: Thu, 27 Mar 2025 09:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:20.720654
- Title: FineCIR: Explicit Parsing of Fine-Grained Modification Semantics for Composed Image Retrieval
- Title(参考訳): FineCIR: 合成画像検索のための微粒化修飾セマンティクスの明示的解析
- Authors: Zixu Li, Zhiheng Fu, Yupeng Hu, Zhiwei Chen, Haokun Wen, Liqiang Nie,
- Abstract要約: Composed Image Retrieval (CIR)は、参照画像と修正テキストからなるマルチモーダルクエリによる画像検索を容易にする。
既存のCIRデータセットは主に粗粒度修正テキスト(CoarseMT)を使用し、粗粒度検索意図を不適切にキャプチャする。
我々は、不正確な正のサンプルを最小化し、修正意図を正確に識別するCIRシステムの能力を向上する頑健なCIRデータアノテーションパイプラインを開発する。
- 参考スコア(独自算出の注目度): 48.63758678240123
- License:
- Abstract: Composed Image Retrieval (CIR) facilitates image retrieval through a multimodal query consisting of a reference image and modification text. The reference image defines the retrieval context, while the modification text specifies desired alterations. However, existing CIR datasets predominantly employ coarse-grained modification text (CoarseMT), which inadequately captures fine-grained retrieval intents. This limitation introduces two key challenges: (1) ignoring detailed differences leads to imprecise positive samples, and (2) greater ambiguity arises when retrieving visually similar images. These issues degrade retrieval accuracy, necessitating manual result filtering or repeated queries. To address these limitations, we develop a robust fine-grained CIR data annotation pipeline that minimizes imprecise positive samples and enhances CIR systems' ability to discern modification intents accurately. Using this pipeline, we refine the FashionIQ and CIRR datasets to create two fine-grained CIR datasets: Fine-FashionIQ and Fine-CIRR. Furthermore, we introduce FineCIR, the first CIR framework explicitly designed to parse the modification text. FineCIR effectively captures fine-grained modification semantics and aligns them with ambiguous visual entities, enhancing retrieval precision. Extensive experiments demonstrate that FineCIR consistently outperforms state-of-the-art CIR baselines on both fine-grained and traditional CIR benchmark datasets. Our FineCIR code and fine-grained CIR datasets are available at https://github.com/SDU-L/FineCIR.git.
- Abstract(参考訳): Composed Image Retrieval (CIR)は、参照画像と修正テキストからなるマルチモーダルクエリによる画像検索を容易にする。
参照画像は検索コンテキストを定義し、修正テキストは所望の変更を指定する。
しかし、既存のCIRデータセットは主に粗粒度修正テキスト(CoarseMT)を使用し、粗粒度検索意図が不十分である。
この制限は、(1)詳細な相違を無視すると、不正確な正のサンプルが得られ、(2)視覚的に類似した画像を取得する際に、より曖昧さが生じる。
これらの問題は、検索の精度を低下させ、手動による結果のフィルタリングや繰り返しクエリを必要とする。
これらの制約に対処するため、我々は不正確な正のサンプルを最小化し、修正意図を正確に識別するCIRシステムの能力を向上する頑健なCIRデータアノテーションパイプラインを開発した。
このパイプラインを使用して、FashionIQとCIRRデータセットを洗練し、2つのきめ細かいCIRデータセット、Fine-FashionIQとFine-CIRRを作成します。
さらに,修正文を解析するために設計された最初のCIRフレームワークであるFinCIRを紹介する。
FineCIRは、精細な修正セマンティクスを効果的にキャプチャし、それらを曖昧な視覚的実体と整列させ、検索精度を向上する。
大規模な実験により、FineCIRは、細粒度と従来のCIRベンチマークデータセットの両方で、最先端のCIRベースラインを一貫して上回っていることが示された。
FineCIRコードと詳細なCIRデータセットはhttps://github.com/SDU-L/FineCIR.git.comで公開されています。
関連論文リスト
- Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - Edge-guided Multi-domain RGB-to-TIR image Translation for Training
Vision Tasks with Challenging Labels [12.701191873813583]
注釈付き熱赤外(TIR)画像データセットの不足は、TIR画像ベースのディープラーニングネットワークを妨害し、RGBと同等の性能を持つ。
本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。
我々は、終点誤差を平均56.5%改善した深部TIR画像に基づく光フロー推定と物体検出の教師あり学習を可能にし、最高の物体検出mAPは23.9%とした。
論文 参考訳(メタデータ) (2023-01-30T06:44:38Z) - Reference-based Image Super-Resolution with Deformable Attention
Transformer [62.71769634254654]
RefSRは、補助参照(Ref)画像を超解像低解像度(LR)画像に活用することを目的としている。
本稿では,複数のスケールを持つ変形可能なアテンション変換器,すなわちDATSRを提案する。
DATSRがベンチマークデータセット上で最先端のパフォーマンスを達成することを示す実験を行った。
論文 参考訳(メタデータ) (2022-07-25T07:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。