論文の概要: Context-I2W: Mapping Images to Context-dependent Words for Accurate
Zero-Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2309.16137v1
- Date: Thu, 28 Sep 2023 03:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 18:07:19.269870
- Title: Context-I2W: Mapping Images to Context-dependent Words for Accurate
Zero-Shot Composed Image Retrieval
- Title(参考訳): コンテキストI2W: ゼロショット合成画像検索のための文脈依存語への画像マッピング
- Authors: Yuanmin Tang, Jing Yu, Keke Gai, Zhuang Jiamin, Gang Xiong, Yue Hu and
Qi Wu
- Abstract要約: Composed Image Retrieval (ZS-CIR)は、幅広い視覚コンテンツ操作意図を持つ多様なタスクを含む。
本稿では,記述関連画像情報を擬似語トークンに適応的に変換するコンテキスト依存型マッピングネットワークであるContext-I2Wを提案する。
本モデルは、ドメイン変換、オブジェクト合成、オブジェクト操作、属性操作を含む、4つのZS-CIRタスクに対して強力な一般化能力を示す。
- 参考スコア(独自算出の注目度): 19.916419258812077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from Composed Image Retrieval task that requires expensive labels
for training task-specific models, Zero-Shot Composed Image Retrieval (ZS-CIR)
involves diverse tasks with a broad range of visual content manipulation intent
that could be related to domain, scene, object, and attribute. The key
challenge for ZS-CIR tasks is to learn a more accurate image representation
that has adaptive attention to the reference image for various manipulation
descriptions. In this paper, we propose a novel context-dependent mapping
network, named Context-I2W, for adaptively converting description-relevant
Image information into a pseudo-word token composed of the description for
accurate ZS-CIR. Specifically, an Intent View Selector first dynamically learns
a rotation rule to map the identical image to a task-specific manipulation
view. Then a Visual Target Extractor further captures local information
covering the main targets in ZS-CIR tasks under the guidance of multiple
learnable queries. The two complementary modules work together to map an image
to a context-dependent pseudo-word token without extra supervision. Our model
shows strong generalization ability on four ZS-CIR tasks, including domain
conversion, object composition, object manipulation, and attribute
manipulation. It obtains consistent and significant performance boosts ranging
from 1.88% to 3.60% over the best methods and achieves new state-of-the-art
results on ZS-CIR. Our code is available at
https://github.com/Pter61/context_i2w.
- Abstract(参考訳): タスク固有のモデルのトレーニングに高価なラベルを必要とするComposeed Image Retrievalタスクとは異なり、Zero-Shot Composed Image Retrieval (ZS-CIR)は、ドメイン、シーン、オブジェクト、属性に関連する幅広い視覚的コンテンツ操作意図を持つ多様なタスクを含む。
ZS-CIRタスクの鍵となる課題は、様々な操作記述のための参照画像に適応的な注意を払って、より正確な画像表現を学ぶことである。
本稿では,記述関連画像情報をzs-cirの正確な記述からなる擬似単語トークンに適応的に変換する,コンテキスト依存型マッピングネットワークcontext-i2wを提案する。
具体的には、Intent View Selectorが最初に回転規則を動的に学習し、同一画像をタスク固有の操作ビューにマップする。
次に、Visual Target Extractorは、複数の学習可能なクエリのガイダンスの下で、ZS-CIRタスクの主要なターゲットをカバーするローカル情報をキャプチャする。
2つの補完モジュールは協力して、余分な監督なしに、イメージをコンテキスト依存の擬似ワードトークンにマッピングする。
提案モデルは,zs-cirタスクにおいて,ドメイン変換,オブジェクト構成,オブジェクト操作,属性操作などの強力な一般化能力を示す。
最高の方法よりも1.88%から3.60%の一貫性があり、zs-cirの新たな最先端結果が得られる。
私たちのコードはhttps://github.com/pter61/context_i2wで利用可能です。
関連論文リスト
- Denoise-I2W: Mapping Images to Denoising Words for Accurate Zero-Shot Composed Image Retrieval [15.406836909707023]
Zero-Shot Composed Image Retrieval (ZS-CIR)は、幅広い視覚コンテンツ操作意図を持つ多様なタスクをサポートする。
ZS-CIRの重要な課題は、画像表現を疑似ワードトークンに正確にマッピングすることである。
そこで我々は,画像から擬似語トークンへのデノナイズのための新しいデノナイズ・イメージ・ツー・ワードマッピング手法,Denoise-I2Wを提案する。
論文 参考訳(メタデータ) (2024-10-22T20:01:00Z) - iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。
CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文 参考訳(メタデータ) (2024-05-05T14:39:06Z) - Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。