論文の概要: Contrastive Denoising Score for Text-guided Latent Diffusion Image
Editing
- arxiv url: http://arxiv.org/abs/2311.18608v1
- Date: Thu, 30 Nov 2023 15:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:07:02.393413
- Title: Contrastive Denoising Score for Text-guided Latent Diffusion Image
Editing
- Title(参考訳): テキスト誘導型遅延拡散画像編集のためのコントラストDenoising Score
- Authors: Hyelin Nam, Gihyun Kwon, Geon Yeong Park, Jong Chul Ye
- Abstract要約: 本稿では,LDM(Latent Image-to-image Translation Model)に対するCDS(Contrastive Denoising Score)の変更について述べる。
具体的には,フレームワーク内のCUT損失を用いて構造的整合性を制御するための簡単なアプローチを提案する。
提案手法は,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集を可能にする。
- 参考スコア(独自算出の注目度): 63.89492742059184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the remarkable advent of text-to-image diffusion models, image editing
methods have become more diverse and continue to evolve. A promising recent
approach in this realm is Delta Denoising Score (DDS) - an image editing
technique based on Score Distillation Sampling (SDS) framework that leverages
the rich generative prior of text-to-image diffusion models. However, relying
solely on the difference between scoring functions is insufficient for
preserving specific structural elements from the original image, a crucial
aspect of image editing. Inspired by the similarity and importance differences
between DDS and the contrastive learning for unpaired image-to-image
translation (CUT), here we present an embarrassingly simple yet very powerful
modification of DDS, called Contrastive Denoising Score (CDS), for latent
diffusion models (LDM). Specifically, to enforce structural correspondence
between the input and output while maintaining the controllability of contents,
we introduce a straightforward approach to regulate structural consistency
using CUT loss within the DDS framework. To calculate this loss, instead of
employing auxiliary networks, we utilize the intermediate features of LDM, in
particular, those from the self-attention layers, which possesses rich spatial
information. Our approach enables zero-shot image-to-image translation and
neural radiance field (NeRF) editing, achieving a well-balanced interplay
between maintaining the structural details and transforming content.
Qualitative results and comparisons demonstrates the effectiveness of our
proposed method. Project page with code is available at
https://hyelinnam.github.io/CDS/.
- Abstract(参考訳): テキスト・画像拡散モデルの顕著な出現により、画像編集手法は多様化し、進化を続けている。
Delta Denoising Score (DDS) - Score Distillation Sampling (SDS)フレームワークに基づく画像編集技術で、テキストから画像への拡散モデルのリッチな生成モデルを活用する。
しかし、スコアリング機能の違いにのみ依存することは、画像編集の重要な側面である原画像から特定の構造要素を保存するには不十分である。
本稿では,DDSの類似性と重要度の違いに着想を得て,遅延拡散モデル(LDM)のためのCDS(Contrastive Denoising Score, Contrastive Denoising Score, CDS)と呼ばれる,DDSの恥ずかしいほど単純だが非常に強力な修正を提示する。
具体的には,コンテントの制御性を維持しつつ,入力と出力間の構造的対応を強制するために,DDSフレームワーク内のCUT損失を用いて構造的整合性を制御するための簡単なアプローチを導入する。
この損失を計算するために、補助的なネットワークを使う代わりに、LDMの中間的特徴、特に豊かな空間情報を持つ自己注意層の特徴を利用する。
提案手法は,ゼロショット画像から画像への変換とニューラルレイディアンスフィールド(NeRF)の編集を可能にする。
定性的な結果と比較は,提案手法の有効性を示す。
コード付きプロジェクトページはhttps://hyelinnam.github.io/cds/。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - Score Distillation Sampling with Learned Manifold Corrective [36.963929141091455]
損失を異なる要因に分解し,ノイズ勾配の原因となる成分を分離する。
オリジナルの定式化では、ノイズを考慮に入れた高いテキストガイダンスが使用され、過飽和や繰り返し詳細といった不要な副作用が生じる。
我々は,画像拡散モデルの時間依存性周波数バイアスを模倣した浅層ネットワークを訓練し,これを効果的に導出する。
論文 参考訳(メタデータ) (2024-01-10T17:51:46Z) - MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - Delta Denoising Score [51.98288453616375]
テキストベースの画像編集のための新しいスコアリング機能であるDelta Denoising Score (DDS)を紹介する。
ターゲットプロンプトに記述された内容に対して、入力画像の最小限の変更を導く。
論文 参考訳(メタデータ) (2023-04-14T12:22:41Z) - SinDDM: A Single Image Denoising Diffusion Model [28.51951207066209]
単一画像上でのデノナイズ拡散モデルをトレーニングするためのフレームワークを提案する。
SinDDMを作成した本手法では,マルチスケール拡散プロセスを用いてトレーニング画像の内部統計を学習する。
これは、スタイル転送や調和など、幅広いタスクに適用できる。
論文 参考訳(メタデータ) (2022-11-29T20:44:25Z) - EDICT: Exact Diffusion Inversion via Coupled Transformations [13.996171129586731]
拡散過程(反転と呼ばれる)に入力画像を生成する初期ノイズベクトルを見つけることは重要な問題である。
本稿では,アフィン結合層からインスピレーションを得るための逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
論文 参考訳(メタデータ) (2022-11-22T18:02:49Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。