論文の概要: CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion
- arxiv url: http://arxiv.org/abs/2303.11916v1
- Date: Tue, 21 Mar 2023 15:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:28:49.223791
- Title: CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion
- Title(参考訳): CompoDiff:Versatileの合成画像検索と遅延拡散
- Authors: Geonmo Gu and Sanghyuk Chun and Wonjae Kim and HeeJae Jun and Yoohoon
Kang and Sangdoo Yun
- Abstract要約: 本稿では,遅延拡散を用いた合成画像検索(CIR)のための新しい拡散モデルCompoDiffを提案する。
CompoDiffはFashionIQのようなCIRベンチマークで新たなゼロショットステート・オブ・ザ・アートを実現している。
- 参考スコア(独自算出の注目度): 28.26207780262978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel diffusion-based model, CompoDiff, for solving
Composed Image Retrieval (CIR) with latent diffusion and presents a newly
created dataset of 18 million reference images, conditions, and corresponding
target image triplets to train the model. CompoDiff not only achieves a new
zero-shot state-of-the-art on a CIR benchmark such as FashionIQ but also
enables a more versatile CIR by accepting various conditions, such as negative
text and image mask conditions, which are unavailable with existing CIR
methods. In addition, the CompoDiff features are on the intact CLIP embedding
space so that they can be directly used for all existing models exploiting the
CLIP space. The code and dataset used for the training, and the pre-trained
weights are available at https://github.com/navervision/CompoDiff
- Abstract(参考訳): 本稿では,合成画像検索(cir)を潜在拡散で解決する新しい拡散ベースモデルであるcompodiffを提案する。
CompoDiffは、FashionIQのようなCIRベンチマークで新たなゼロショット状態を達成するだけでなく、既存のCIRメソッドでは利用できないネガティブテキストやイメージマスク条件などの様々な条件を受け入れることで、より汎用的なCIRを可能にする。
また、CompoDiff機能はCLIPの埋め込みスペース上にあり、CLIP空間を利用する既存のモデルすべてに直接使用することができる。
トレーニングに使用されるコードとデータセット、トレーニング済みの重み付けはhttps://github.com/navervision/CompoDiffで確認できる。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - HyCIR: Boosting Zero-Shot Composed Image Retrieval with Synthetic Labels [5.34016463729574]
Composed Image Retrieval (CIR)は、テキストによるクエリ画像に基づいて画像を取得することを目的としている。
現在のZero-Shot CIR(ZS-CIR)メソッドは、高価な三重項ラベルのトレーニングデータセットを使わずにCIRタスクを解決しようとする。
合成ラベルを用いてZS-CIRの性能を向上させるハイブリッドCIR(HyCIR)を提案する。
論文 参考訳(メタデータ) (2024-07-08T09:55:36Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image
Retrieval [84.11127588805138]
Composed Image Retrieval (CIR)は、クエリイメージとテキストを組み合わせて、対象とするターゲットを記述する。
既存の方法は、クエリ画像、テキスト仕様、ターゲット画像からなるラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
我々は,ラベル付き三重項学習を必要とせずにCIRモデルを構築することを目的として,Zero-Shot Composed Image Retrieval (ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-02-06T19:40:04Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。