論文の概要: Contrastive Denoising Score for Text-guided Latent Diffusion Image
Editing
- arxiv url: http://arxiv.org/abs/2311.18608v1
- Date: Thu, 30 Nov 2023 15:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:07:02.393413
- Title: Contrastive Denoising Score for Text-guided Latent Diffusion Image
Editing
- Title(参考訳): テキスト誘導型遅延拡散画像編集のためのコントラストDenoising Score
- Authors: Hyelin Nam, Gihyun Kwon, Geon Yeong Park, Jong Chul Ye
- Abstract要約: 本稿では,LDM(Latent Image-to-image Translation Model)に対するCDS(Contrastive Denoising Score)の変更について述べる。
具体的には,フレームワーク内のCUT損失を用いて構造的整合性を制御するための簡単なアプローチを提案する。
提案手法は,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集を可能にする。
- 参考スコア(独自算出の注目度): 63.89492742059184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the remarkable advent of text-to-image diffusion models, image editing
methods have become more diverse and continue to evolve. A promising recent
approach in this realm is Delta Denoising Score (DDS) - an image editing
technique based on Score Distillation Sampling (SDS) framework that leverages
the rich generative prior of text-to-image diffusion models. However, relying
solely on the difference between scoring functions is insufficient for
preserving specific structural elements from the original image, a crucial
aspect of image editing. Inspired by the similarity and importance differences
between DDS and the contrastive learning for unpaired image-to-image
translation (CUT), here we present an embarrassingly simple yet very powerful
modification of DDS, called Contrastive Denoising Score (CDS), for latent
diffusion models (LDM). Specifically, to enforce structural correspondence
between the input and output while maintaining the controllability of contents,
we introduce a straightforward approach to regulate structural consistency
using CUT loss within the DDS framework. To calculate this loss, instead of
employing auxiliary networks, we utilize the intermediate features of LDM, in
particular, those from the self-attention layers, which possesses rich spatial
information. Our approach enables zero-shot image-to-image translation and
neural radiance field (NeRF) editing, achieving a well-balanced interplay
between maintaining the structural details and transforming content.
Qualitative results and comparisons demonstrates the effectiveness of our
proposed method. Project page with code is available at
https://hyelinnam.github.io/CDS/.
- Abstract(参考訳): テキスト・画像拡散モデルの顕著な出現により、画像編集手法は多様化し、進化を続けている。
Delta Denoising Score (DDS) - Score Distillation Sampling (SDS)フレームワークに基づく画像編集技術で、テキストから画像への拡散モデルのリッチな生成モデルを活用する。
しかし、スコアリング機能の違いにのみ依存することは、画像編集の重要な側面である原画像から特定の構造要素を保存するには不十分である。
本稿では,DDSの類似性と重要度の違いに着想を得て,遅延拡散モデル(LDM)のためのCDS(Contrastive Denoising Score, Contrastive Denoising Score, CDS)と呼ばれる,DDSの恥ずかしいほど単純だが非常に強力な修正を提示する。
具体的には,コンテントの制御性を維持しつつ,入力と出力間の構造的対応を強制するために,DDSフレームワーク内のCUT損失を用いて構造的整合性を制御するための簡単なアプローチを導入する。
この損失を計算するために、補助的なネットワークを使う代わりに、LDMの中間的特徴、特に豊かな空間情報を持つ自己注意層の特徴を利用する。
提案手法は,ゼロショット画像から画像への変換とニューラルレイディアンスフィールド(NeRF)の編集を可能にする。
定性的な結果と比較は,提案手法の有効性を示す。
コード付きプロジェクトページはhttps://hyelinnam.github.io/cds/。
関連論文リスト
- Score Distillation Sampling with Learned Manifold Corrective [41.54375201921829]
本稿では、スコア蒸留サンプリング(SDS)損失関数の詳細な解析を行い、その定式化による固有の問題を特定し、驚くほど簡単だが効果的な修正を提案する。
損失を異なる要因に分解し,ノイズ勾配の原因となる成分を分離する。
元の定式化では、ノイズを考慮に入れ、不要な副作用を引き起こすため、画像拡散モデルの時間依存性の劣化を模倣した浅いネットワークを訓練し、効果的に分解する。
論文 参考訳(メタデータ) (2024-01-10T17:51:46Z) - MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - Spatial-Contextual Discrepancy Information Compensation for GAN
Inversion [67.21442893265973]
空間的不一致情報補償に基づく新しいGAN-inversion法(SDIC)を提案する。
SDICは、オリジナルの画像と再構成/編集された画像との間の画像詳細のギャップを埋める。
提案手法は,画像インバージョンと編集作業の両方において,高速な推論速度で優れた歪み適応性トレードオフを実現する。
論文 参考訳(メタデータ) (2023-12-12T08:58:56Z) - Noise-Free Score Distillation [78.79226724549456]
ノイズフリースコア蒸留(NFSD)プロセスは、オリジナルのSDSフレームワークに最小限の変更を必要とする。
我々は,CFG尺度を用いて,事前学習したテキスト・画像拡散モデルのより効果的な蒸留を行う。
論文 参考訳(メタデータ) (2023-10-26T17:12:26Z) - Multi-cropping Contrastive Learning and Domain Consistency for
Unsupervised Image-to-Image Translation [5.562419999563734]
マルチクロップ型コントラスト学習とドメイン整合性に基づく新しい教師なし画像から画像への翻訳フレームワーク MCDUT を提案する。
多くの画像と画像の翻訳タスクにおいて,本手法は最先端の結果を達成し,その利点は比較実験とアブレーション研究によって証明されている。
論文 参考訳(メタデータ) (2023-04-24T16:20:28Z) - Delta Denoising Score [51.98288453616375]
テキストベースの画像編集のための新しいスコアリング機能であるDelta Denoising Score (DDS)を紹介する。
ターゲットプロンプトに記述された内容に対して、入力画像の最小限の変更を導く。
論文 参考訳(メタデータ) (2023-04-14T12:22:41Z) - EDICT: Exact Diffusion Inversion via Coupled Transformations [13.996171129586731]
拡散過程(反転と呼ばれる)に入力画像を生成する初期ノイズベクトルを見つけることは重要な問題である。
本稿では,アフィン結合層からインスピレーションを得るための逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
論文 参考訳(メタデータ) (2022-11-22T18:02:49Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。