論文の概要: Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2403.16005v1
- Date: Sun, 24 Mar 2024 04:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:12:47.716998
- Title: Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval
- Title(参考訳): 知識強化型デュアルストリームゼロショット合成画像検索
- Authors: Yucheng Suo, Fan Ma, Linchao Zhu, Yi Yang,
- Abstract要約: 本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
- 参考スコア(独自算出の注目度): 53.89454443114146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the zero-shot Composed Image Retrieval (ZS-CIR) task, which is to retrieve the target image given a reference image and a description without training on the triplet datasets. Previous works generate pseudo-word tokens by projecting the reference image features to the text embedding space. However, they focus on the global visual representation, ignoring the representation of detailed attributes, e.g., color, object number and layout. To address this challenge, we propose a Knowledge-Enhanced Dual-stream zero-shot composed image retrieval framework (KEDs). KEDs implicitly models the attributes of the reference images by incorporating a database. The database enriches the pseudo-word tokens by providing relevant images and captions, emphasizing shared attribute information in various aspects. In this way, KEDs recognizes the reference image from diverse perspectives. Moreover, KEDs adopts an extra stream that aligns pseudo-word tokens with textual concepts, leveraging pseudo-triplets mined from image-text pairs. The pseudo-word tokens generated in this stream are explicitly aligned with fine-grained semantics in the text embedding space. Extensive experiments on widely used benchmarks, i.e. ImageNet-R, COCO object, Fashion-IQ and CIRR, show that KEDs outperforms previous zero-shot composed image retrieval methods.
- Abstract(参考訳): 本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
しかし、彼らはグローバルな視覚表現に重点を置いており、例えば、色、オブジェクト番号、レイアウトといった詳細な属性の表現を無視している。
この課題に対処するため,KED(Knowledge-Enhanced Dual-stream zero-shot composition image search framework)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
データベースは、関連画像やキャプションを提供し、様々な面で共有属性情報を強調することにより、擬似語トークンを充実させる。
このようにして、KEDは様々な視点から参照画像を認識する。
さらに、KEDは擬似単語トークンをテキストの概念と整合させる余分なストリームを採用し、画像とテキストのペアから抽出された擬似トリップレットを活用する。
このストリームで生成された擬似ワードトークンは、テキスト埋め込み空間におけるきめ細かいセマンティクスと明示的に一致している。
ImageNet-R、COCOオブジェクト、Fashion-IQ、CIRRなど、広く使われているベンチマークの広範な実験により、KEDsは以前のゼロショット合成画像検索法よりも優れていることが示された。
関連論文リスト
- iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Decompose Semantic Shifts for Composed Image Retrieval [38.262678009072154]
合成画像検索は、ユーザが参照画像を出発点として提供し、開始点から所望の目標画像へのシフト方法に関するテキストを指定する画像検索タスクの一種である。
本稿では,セマンティック・シフト・ネットワーク(SSN)を提案する。セマンティック・シフト・ネットワーク(SSN)は,セマンティック・シフトを,参照画像から視覚プロトタイプへ,視覚プロトタイプから対象画像へ,という2つのステップに明示的に分解する。
提案したSSNは、CIRRデータセットとFashionIQデータセットでそれぞれ5.42%と1.37%の大幅な改善を示し、新しい最先端のパフォーマンスを確立している。
論文 参考訳(メタデータ) (2023-09-18T07:21:30Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。