論文の概要: An Edit Friendly DDPM Noise Space: Inversion and Manipulations
- arxiv url: http://arxiv.org/abs/2304.06140v3
- Date: Tue, 9 Apr 2024 17:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:36:08.094128
- Title: An Edit Friendly DDPM Noise Space: Inversion and Manipulations
- Title(参考訳): DDPMノイズ空間のインバージョンと操作
- Authors: Inbar Huberman-Spiegelglas, Vladimir Kulikov, Tomer Michaeli,
- Abstract要約: そこで本研究では,DDPMの簡易な操作により,幅広い編集操作が可能となる潜在雑音空間を提案する。
この特性により,多様なDDPMサンプリング方式を用いて実画像のテキストベースの編集が可能となることを示す。
また,既存の拡散ベースの編集手法を用いて,その品質と多様性を向上させる方法を示す。
- 参考スコア(独自算出の注目度): 22.356884847119616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Denoising diffusion probabilistic models (DDPMs) employ a sequence of white Gaussian noise samples to generate an image. In analogy with GANs, those noise maps could be considered as the latent code associated with the generated image. However, this native noise space does not possess a convenient structure, and is thus challenging to work with in editing tasks. Here, we propose an alternative latent noise space for DDPM that enables a wide range of editing operations via simple means, and present an inversion method for extracting these edit-friendly noise maps for any given image (real or synthetically generated). As opposed to the native DDPM noise space, the edit-friendly noise maps do not have a standard normal distribution and are not statistically independent across timesteps. However, they allow perfect reconstruction of any desired image, and simple transformations on them translate into meaningful manipulations of the output image (e.g. shifting, color edits). Moreover, in text-conditional models, fixing those noise maps while changing the text prompt, modifies semantics while retaining structure. We illustrate how this property enables text-based editing of real images via the diverse DDPM sampling scheme (in contrast to the popular non-diverse DDIM inversion). We also show how it can be used within existing diffusion-based editing methods to improve their quality and diversity. Webpage: https://inbarhub.github.io/DDPM_inversion
- Abstract(参考訳): 拡散確率モデル(DDPM)は白色ガウス雑音サンプルを用いて画像を生成する。
GANと類似して、これらのノイズマップは、生成された画像に関連付けられた潜在コードと見なすことができる。
しかし、このネイティブノイズ空間は便利な構造を持たず、編集作業で作業することが困難である。
本稿では,DDPMに対して,簡単な方法で広範囲の編集操作が可能な代替雑音空間を提案するとともに,任意の画像(実または合成生成)に対して,これらの編集フレンドリなノイズマップを抽出する逆変換法を提案する。
ネイティブDDPMノイズ空間とは対照的に、編集しやすいノイズマップは標準正規分布を持たず、タイムステップ間で統計的に独立ではない。
しかし、任意の所望の画像の完全な再構成が可能であり、単純な変換は出力画像の有意義な操作(例えば、シフト、色編集)に変換される。
さらに、テキスト条件モデルでは、これらのノイズマップをテキストプロンプトを変更しながら修正し、構造を維持しながらセマンティクスを変更する。
本稿では,この特性により,多種多様なDDPMサンプリング方式による実画像のテキスト編集が可能となる(非多種多様なDDIMインバージョンとは対照的に)。
また,既存の拡散ベースの編集手法を用いて,その品質と多様性を向上させる方法を示す。
Webページ: https://inbarhub.github.io/DDPM_inversion
関連論文リスト
- TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。
オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文 参考訳(メタデータ) (2024-04-24T17:59:11Z) - Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models [18.75409092764653]
テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。
本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。
実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-03-17T06:19:30Z) - NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on
Noise Cropping and Merging [7.8231243791363285]
本稿では,ノイズコラージュと呼ばれる新しいレイアウト対応テキスト・画像拡散モデルを提案する。
ノイズコラージュは個別の物体のノイズを独立に推定し、それを収穫して1つのノイズにマージする。
NoiseCollage は ControlNet と統合して,エッジやスケッチ,スケルトンを追加条件として使用することができる。
論文 参考訳(メタデータ) (2024-03-06T05:56:31Z) - Manipulation Mask Generator: High-Quality Image Manipulation Mask
Generation Method Based on Modified Total Variation Noise Reduction [20.620232937684133]
本稿では,高品質な改ざん画像を取得するための改良された全変動雑音低減手法を提案する。
Baidu PS Barからオリジナル画像や改ざん画像を自動的にクロールします。
改良された全変動雑音低減法は,この問題の解決を目的としている。
論文 参考訳(メタデータ) (2023-10-23T15:40:00Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。