論文の概要: Denoise-I2W: Mapping Images to Denoising Words for Accurate Zero-Shot Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2410.17393v1
- Date: Tue, 22 Oct 2024 20:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:56.844627
- Title: Denoise-I2W: Mapping Images to Denoising Words for Accurate Zero-Shot Composed Image Retrieval
- Title(参考訳): Denoise-I2W: ゼロショット合成画像検索のためのDenoise-I2W
- Authors: Yuanmin Tang, Jing Yu, Keke Gai, Jiamin Zhuang, Gaopeng Gou, Gang Xiong, Qi Wu,
- Abstract要約: Zero-Shot Composed Image Retrieval (ZS-CIR)は、幅広い視覚コンテンツ操作意図を持つ多様なタスクをサポートする。
ZS-CIRの重要な課題は、画像表現を疑似ワードトークンに正確にマッピングすることである。
そこで我々は,画像から擬似語トークンへのデノナイズのための新しいデノナイズ・イメージ・ツー・ワードマッピング手法,Denoise-I2Wを提案する。
- 参考スコア(独自算出の注目度): 15.406836909707023
- License:
- Abstract: Zero-Shot Composed Image Retrieval (ZS-CIR) supports diverse tasks with a broad range of visual content manipulation intentions that can be related to domain, scene, object, and attribute. A key challenge for ZS-CIR is to accurately map image representation to a pseudo-word token that captures the manipulation intention relevant image information for generalized CIR. However, existing methods between the retrieval and pre-training stages lead to significant redundancy in the pseudo-word tokens. In this paper, we propose a novel denoising image-to-word mapping approach, named Denoise-I2W, for mapping images into denoising pseudo-word tokens that, without intention-irrelevant visual information, enhance accurate ZS-CIR. Specifically, a pseudo triplet construction module first automatically constructs pseudo triples (\textit{i.e.,} a pseudo-reference image, a pseudo-manipulation text, and a target image) for pre-training the denoising mapping network. Then, a pseudo-composed mapping module maps the pseudo-reference image to a pseudo-word token and combines it with the pseudo-manipulation text with manipulation intention. This combination aligns with the target image, facilitating denoising intention-irrelevant visual information for mapping. Our proposed Denoise-I2W is a model-agnostic and annotation-free approach. It demonstrates strong generalization capabilities across three state-of-the-art ZS-CIR models on four benchmark datasets. By integrating Denoise-I2W with existing best models, we obtain consistent and significant performance boosts ranging from 1.45\% to 4.17\% over the best methods without increasing inference costs. and achieve new state-of-the-art results on ZS-CIR. Our code is available at \url{https://github.com/Pter61/denoise-i2w-tmm}.
- Abstract(参考訳): Zero-Shot Composed Image Retrieval (ZS-CIR)は、さまざまなタスクをサポートする。
ZS-CIRの鍵となる課題は、画像表現を一般化されたCIRの操作意図に関連する画像情報をキャプチャする疑似ワードトークンに正確にマッピングすることである。
しかし,検索段階から事前学習段階までの既存の手法は,擬似語トークンにかなりの冗長性をもたらす。
本稿では,意図的でない視覚情報を用いず,正確なZS-CIRを向上するDNOise-I2Wという,画像から擬似語へのデノナイズのための新しいデノナイズ・イメージ・ツー・ワード・マッピング手法を提案する。
具体的には、擬似三重項構築モジュールは、最初に擬似三重項(擬似参照画像、擬似操作テキスト、ターゲット画像)を自動構築して、擬似マッピングネットワークを事前訓練する。
そして、擬似合成マッピングモジュールが擬似参照画像を擬似ワードトークンにマッピングし、擬似操作テキストと操作意図とを結合する。
この組み合わせは対象のイメージと一致し、マッピングに意図的でない視覚情報を識別するのに役立つ。
提案するDenoise-I2Wは,モデルに依存しない,アノテーションのないアプローチである。
4つのベンチマークデータセット上で、最先端の3つのZS-CIRモデルにまたがる強力な一般化機能を示す。
Denoise-I2Wを既存のベストモデルと統合することにより、推論コストを増大させることなく、ベストメソッドの1.45\%から4.17\%まで、一貫した、重要なパフォーマンス向上が得られる。
ZS-CIRにおける新しい最先端結果を実現する。
私たちのコードは \url{https://github.com/Pter61/denoise-i2w-tmm} で利用可能です。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Context-I2W: Mapping Images to Context-dependent Words for Accurate
Zero-Shot Composed Image Retrieval [19.916419258812077]
Composed Image Retrieval (ZS-CIR)は、幅広い視覚コンテンツ操作意図を持つ多様なタスクを含む。
本稿では,記述関連画像情報を擬似語トークンに適応的に変換するコンテキスト依存型マッピングネットワークであるContext-I2Wを提案する。
本モデルは、ドメイン変換、オブジェクト合成、オブジェクト操作、属性操作を含む、4つのZS-CIRタスクに対して強力な一般化能力を示す。
論文 参考訳(メタデータ) (2023-09-28T03:35:25Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - TriPINet: Tripartite Progressive Integration Network for Image
Manipulation Localization [3.7359400978194675]
本稿では,3部構成のプログレッシブ統合ネットワーク(TriPINet)を提案する。
我々は,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発した。
本手法と最先端画像鑑定法との比較のために, 大規模な実験を行った。
論文 参考訳(メタデータ) (2022-12-25T02:27:58Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。