論文の概要: CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion
- arxiv url: http://arxiv.org/abs/2303.11916v4
- Date: Tue, 16 Jul 2024 04:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 00:20:24.642487
- Title: CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion
- Title(参考訳): CompoDiff:Versatileの合成画像検索と遅延拡散
- Authors: Geonmo Gu, Sanghyuk Chun, Wonjae Kim, HeeJae Jun, Yoohoon Kang, Sangdoo Yun,
- Abstract要約: 本稿では,ゼロショット合成画像検索(ZS-CIR)を遅延拡散で解くための新しい拡散モデルCompoDiffを提案する。
また,CIRモデルをトレーニングするための1880万の参照画像,条件,および対応するターゲット画像三重項を含む,SynthTriplets18Mという新しい合成データセットも紹介した。
- 参考スコア(独自算出の注目度): 44.29385440197458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel diffusion-based model, CompoDiff, for solving zero-shot Composed Image Retrieval (ZS-CIR) with latent diffusion. This paper also introduces a new synthetic dataset, named SynthTriplets18M, with 18.8 million reference images, conditions, and corresponding target image triplets to train CIR models. CompoDiff and SynthTriplets18M tackle the shortages of the previous CIR approaches, such as poor generalizability due to the small dataset scale and the limited types of conditions. CompoDiff not only achieves a new state-of-the-art on four ZS-CIR benchmarks, including FashionIQ, CIRR, CIRCO, and GeneCIS, but also enables a more versatile and controllable CIR by accepting various conditions, such as negative text, and image mask conditions. CompoDiff also shows the controllability of the condition strength between text and image queries and the trade-off between inference speed and performance, which are unavailable with existing CIR methods. The code and dataset are available at https://github.com/navervision/CompoDiff
- Abstract(参考訳): 本稿では,ゼロショット合成画像検索(ZS-CIR)を遅延拡散で解くための新しい拡散モデルCompoDiffを提案する。
また,CIRモデルをトレーニングするための1880万の参照画像,条件,および対応するターゲット画像三重項を含む,SynthTriplets18Mという新しい合成データセットも紹介した。
CompoDiffとSynthTriplets18Mは、小さなデータセットスケールと限られた条件による一般化性の低下など、従来のCIRアプローチの不足に対処している。
CompoDiffは、FashionIQ、CIRR、CIRCO、GeneCISを含む4つのZS-CIRベンチマークで新たな最先端を達成しているだけでなく、ネガティブテキストやイメージマスク条件などのさまざまな条件を受け入れることで、より汎用的で制御可能なCIRを実現している。
CompoDiffはまた、テキストと画像クエリ間の条件強度の制御性と、既存のCIRメソッドでは利用できない推論速度と性能のトレードオフも示す。
コードとデータセットはhttps://github.com/navervision/CompoDiffで公開されている。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - HyCIR: Boosting Zero-Shot Composed Image Retrieval with Synthetic Labels [5.34016463729574]
Composed Image Retrieval (CIR)は、テキストによるクエリ画像に基づいて画像を取得することを目的としている。
現在のZero-Shot CIR(ZS-CIR)メソッドは、高価な三重項ラベルのトレーニングデータセットを使わずにCIRタスクを解決しようとする。
合成ラベルを用いてZS-CIRの性能を向上させるハイブリッドCIR(HyCIR)を提案する。
論文 参考訳(メタデータ) (2024-07-08T09:55:36Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。