論文の概要: Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing
- arxiv url: http://arxiv.org/abs/2311.18608v2
- Date: Mon, 1 Apr 2024 11:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:13:26.510206
- Title: Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing
- Title(参考訳): テキスト誘導型遅延拡散画像編集のためのコントラストDenoising Score
- Authors: Hyelin Nam, Gihyun Kwon, Geon Yeong Park, Jong Chul Ye,
- Abstract要約: 潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
- 参考スコア(独自算出の注目度): 58.48890547818074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the remarkable advent of text-to-image diffusion models, image editing methods have become more diverse and continue to evolve. A promising recent approach in this realm is Delta Denoising Score (DDS) - an image editing technique based on Score Distillation Sampling (SDS) framework that leverages the rich generative prior of text-to-image diffusion models. However, relying solely on the difference between scoring functions is insufficient for preserving specific structural elements from the original image, a crucial aspect of image editing. To address this, here we present an embarrassingly simple yet very powerful modification of DDS, called Contrastive Denoising Score (CDS), for latent diffusion models (LDM). Inspired by the similarities and differences between DDS and the contrastive learning for unpaired image-to-image translation(CUT), we introduce a straightforward approach using CUT loss within the DDS framework. Rather than employing auxiliary networks as in the original CUT approach, we leverage the intermediate features of LDM, specifically those from the self-attention layers, which possesses rich spatial information. Our approach enables zero-shot image-to-image translation and neural radiance field (NeRF) editing, achieving structural correspondence between the input and output while maintaining content controllability. Qualitative results and comparisons demonstrates the effectiveness of our proposed method. Project page: https://hyelinnam.github.io/CDS/
- Abstract(参考訳): テキストと画像の拡散モデルの顕著な出現により、画像編集手法はより多様化し、進化を続けている。
Delta Denoising Score (DDS) - Score Distillation Sampling (SDS)フレームワークに基づく画像編集技術で、テキストから画像への拡散モデルのリッチな生成モデルを活用する。
しかし、スコアリング機能の違いにのみ依存することは、画像編集の重要な側面である原画像から特定の構造要素を保存するのに不十分である。
そこで本研究では,遅延拡散モデル(LDM)のためのCDS(Contrastive Denoising Score, Contrastive Denoising Score, CDS)と呼ばれる,非常に単純なDDSの変形について述べる。
画像間翻訳(CUT)におけるDDSとコントラスト学習の類似性と相違に着想を得て,DDSフレームワーク内でのCUT損失を用いた簡単なアプローチを提案する。
従来のCUT手法のように補助的ネットワークを利用するのではなく, LDMの中間的特徴, 特に豊かな空間情報を持つ自己注意層の特徴を利用する。
提案手法は, 画像間のゼロショット変換とニューラルラディアンスフィールド(NeRF)の編集を可能にし, コンテンツ制御性を維持しつつ, 入力と出力の間の構造的対応を実現する。
定性的な結果と比較を行った結果,提案手法の有効性が示された。
プロジェクトページ: https://hyelinnam.github.io/CDS/
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - Score Distillation Sampling with Learned Manifold Corrective [36.963929141091455]
損失を異なる要因に分解し,ノイズ勾配の原因となる成分を分離する。
オリジナルの定式化では、ノイズを考慮に入れた高いテキストガイダンスが使用され、過飽和や繰り返し詳細といった不要な副作用が生じる。
我々は,画像拡散モデルの時間依存性周波数バイアスを模倣した浅層ネットワークを訓練し,これを効果的に導出する。
論文 参考訳(メタデータ) (2024-01-10T17:51:46Z) - MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - Delta Denoising Score [51.98288453616375]
テキストベースの画像編集のための新しいスコアリング機能であるDelta Denoising Score (DDS)を紹介する。
ターゲットプロンプトに記述された内容に対して、入力画像の最小限の変更を導く。
論文 参考訳(メタデータ) (2023-04-14T12:22:41Z) - SinDDM: A Single Image Denoising Diffusion Model [28.51951207066209]
単一画像上でのデノナイズ拡散モデルをトレーニングするためのフレームワークを提案する。
SinDDMを作成した本手法では,マルチスケール拡散プロセスを用いてトレーニング画像の内部統計を学習する。
これは、スタイル転送や調和など、幅広いタスクに適用できる。
論文 参考訳(メタデータ) (2022-11-29T20:44:25Z) - EDICT: Exact Diffusion Inversion via Coupled Transformations [13.996171129586731]
拡散過程(反転と呼ばれる)に入力画像を生成する初期ノイズベクトルを見つけることは重要な問題である。
本稿では,アフィン結合層からインスピレーションを得るための逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
論文 参考訳(メタデータ) (2022-11-22T18:02:49Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。