論文の概要: ConText-CIR: Learning from Concepts in Text for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2505.20764v1
- Date: Tue, 27 May 2025 06:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.440458
- Title: ConText-CIR: Learning from Concepts in Text for Composed Image Retrieval
- Title(参考訳): ConText-CIR: 合成画像検索のためのテキストの概念から学ぶ
- Authors: Eric Xing, Pranavi Kolouju, Robert Pless, Abby Stylianou, Nathan Jacobs,
- Abstract要約: 合成画像検索(CIR)は、クエリ画像と相対テキストで指定されたターゲット画像を取得するタスクである。
テキスト概念-一貫性損失をトレーニングしたフレームワークであるConText-CIRを導入する。
これらのコンポーネントが組み合わさることで,CIRタスクの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 10.156187875858995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Composed image retrieval (CIR) is the task of retrieving a target image specified by a query image and a relative text that describes a semantic modification to the query image. Existing methods in CIR struggle to accurately represent the image and the text modification, resulting in subpar performance. To address this limitation, we introduce a CIR framework, ConText-CIR, trained with a Text Concept-Consistency loss that encourages the representations of noun phrases in the text modification to better attend to the relevant parts of the query image. To support training with this loss function, we also propose a synthetic data generation pipeline that creates training data from existing CIR datasets or unlabeled images. We show that these components together enable stronger performance on CIR tasks, setting a new state-of-the-art in composed image retrieval in both the supervised and zero-shot settings on multiple benchmark datasets, including CIRR and CIRCO. Source code, model checkpoints, and our new datasets are available at https://github.com/mvrl/ConText-CIR.
- Abstract(参考訳): 合成画像検索(CIR)は、クエリ画像と、クエリ画像のセマンティックな修正を記述する相対テキストによって指定されたターゲット画像を取得するタスクである。
CIRの既存の手法は、画像とテキストの修正を正確に表現するのに苦労し、結果として性能が劣る。
この制限に対処するために,テキスト概念-一貫性損失をトレーニングしたCIRフレームワークであるConText-CIRを導入する。
この損失関数によるトレーニングを支援するため,既存のCIRデータセットやラベルなし画像からトレーニングデータを生成する合成データ生成パイプラインも提案する。
これらのコンポーネントは、CIRRやCIRCOを含む複数のベンチマークデータセット上で、教師付きおよびゼロショット設定の両方において、合成画像検索において、新しい最先端の画像検索を新たに設定することにより、CIRタスク上でのより強力なパフォーマンスを実現することを示す。
ソースコード、モデルチェックポイント、新しいデータセットはhttps://github.com/mvrl/ConText-CIR.orgで公開されている。
関連論文リスト
- FineCIR: Explicit Parsing of Fine-Grained Modification Semantics for Composed Image Retrieval [48.63758678240123]
Composed Image Retrieval (CIR)は、参照画像と修正テキストからなるマルチモーダルクエリによる画像検索を容易にする。
既存のCIRデータセットは主に粗粒度修正テキスト(CoarseMT)を使用し、粗粒度検索意図を不適切にキャプチャする。
我々は、不正確な正のサンプルを最小化し、修正意図を正確に識別するCIRシステムの能力を向上する頑健なCIRデータアノテーションパイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-27T09:34:21Z) - Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval [60.20835288280572]
本稿では,FTI4CIR という ZS-CIR のためのテキスト・インバージョン・ネットワークを提案する。
FTI4CIRは、微粒な擬ワードトークンマッピングとトリワイズキャプションベースのセマンティック正規化の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-03-25T02:51:25Z) - iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Language-only Efficient Training of Zero-shot Composed Image Retrieval [46.93446891158521]
合成画像検索(CIR)タスクは、画像とテキストの合成クエリを処理し、両方の条件で相対的な画像を検索する。
本稿では,学習に言語のみを用いる新しいCIRフレームワークを提案する。
我々のLinCIR(Language-only Training for CIR)は、SMP(Self-Masking projection)と呼ばれる新しいセルフスーパービジョンによって、テキストデータセットでのみ訓練することができる。
論文 参考訳(メタデータ) (2023-12-04T16:22:06Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。