論文の概要: An Edit Friendly DDPM Noise Space: Inversion and Manipulations
- arxiv url: http://arxiv.org/abs/2304.06140v1
- Date: Wed, 12 Apr 2023 19:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 16:18:12.434650
- Title: An Edit Friendly DDPM Noise Space: Inversion and Manipulations
- Title(参考訳): 編集フレンドリーなddpmノイズ空間:インバージョンと操作
- Authors: Inbar Huberman-Spiegelglas, Vladimir Kulikov and Tomer Michaeli
- Abstract要約: そこで本研究では,DDPMの簡易な操作により,幅広い編集操作が可能となる潜在雑音空間を提案する。
この特性により,多様なDDPMサンプリング方式を用いて実画像のテキストベースの編集が可能となることを示す。
- 参考スコア(独自算出の注目度): 32.05307348821803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Denoising diffusion probabilistic models (DDPMs) employ a sequence of white
Gaussian noise samples to generate an image. In analogy with GANs, those noise
maps could be considered as the latent code associated with the generated
image. However, this native noise space does not possess a convenient
structure, and is thus challenging to work with in editing tasks. Here, we
propose an alternative latent noise space for DDPM that enables a wide range of
editing operations via simple means, and present an inversion method for
extracting these edit-friendly noise maps for any given image (real or
synthetically generated). As opposed to the native DDPM noise space, the
edit-friendly noise maps do not have a standard normal distribution and are not
statistically independent across timesteps. However, they allow perfect
reconstruction of any desired image, and simple transformations on them
translate into meaningful manipulations of the output image (e.g., shifting,
color edits). Moreover, in text-conditional models, fixing those noise maps
while changing the text prompt, modifies semantics while retaining structure.
We illustrate how this property enables text-based editing of real images via
the diverse DDPM sampling scheme (in contrast to the popular non-diverse DDIM
inversion). We also show how it can be used within existing diffusion-based
editing methods to improve their quality and diversity.
- Abstract(参考訳): denoising diffusion probabilistic models (ddpms) は一連の白色ガウスノイズサンプルを用いて画像を生成する。
ganと類似して、これらのノイズマップは生成された画像に関連する潜在コードと見なすことができる。
しかし、このネイティブノイズ空間は便利な構造を持たず、編集作業で作業することが困難である。
本稿では,簡易な手法で幅広い編集操作が可能なddpmの代替潜在ノイズ空間を提案し,任意の画像(実または合成生成)に対して,これらの編集フレンドリなノイズマップを抽出するインバージョン手法を提案する。
ネイティブDDPMノイズ空間とは対照的に、編集しやすいノイズマップは標準正規分布を持たず、タイムステップ間で統計的に独立ではない。
しかし、任意の所望の画像の完全な再構成を可能にし、単純な変換は出力画像の有意義な操作(例えば、シフト、色編集)に変換される。
さらに、テキスト条件モデルでは、テキストプロンプトを変更しながらノイズマップを修正することで、構造を維持しながらセマンティクスを修正できる。
本稿では,この特性により,多種多様なddpmサンプリング方式を用いて,実画像のテキストベースの編集が可能となることを示す。
また,既存の拡散ベースの編集手法を用いて,その品質と多様性を向上させる方法を示す。
関連論文リスト
- TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。
オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文 参考訳(メタデータ) (2024-04-24T17:59:11Z) - Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models [18.75409092764653]
テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。
本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。
実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-03-17T06:19:30Z) - NoiseCollage: A Layout-Aware Text-to-Image Diffusion Model Based on
Noise Cropping and Merging [7.8231243791363285]
本稿では,ノイズコラージュと呼ばれる新しいレイアウト対応テキスト・画像拡散モデルを提案する。
ノイズコラージュは個別の物体のノイズを独立に推定し、それを収穫して1つのノイズにマージする。
NoiseCollage は ControlNet と統合して,エッジやスケッチ,スケルトンを追加条件として使用することができる。
論文 参考訳(メタデータ) (2024-03-06T05:56:31Z) - Manipulation Mask Generator: High-Quality Image Manipulation Mask
Generation Method Based on Modified Total Variation Noise Reduction [20.620232937684133]
本稿では,高品質な改ざん画像を取得するための改良された全変動雑音低減手法を提案する。
Baidu PS Barからオリジナル画像や改ざん画像を自動的にクロールします。
改良された全変動雑音低減法は,この問題の解決を目的としている。
論文 参考訳(メタデータ) (2023-10-23T15:40:00Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Learning to Generate Realistic Noisy Images via Pixel-level Noise-aware
Adversarial Training [50.018580462619425]
我々は,PNGAN(Pixel-level Noise-aware Generative Adrial Network)という新しいフレームワークを提案する。
PNGANは、トレーニング済みのリアルデノイザーを使用して、フェイク画像とリアルノイズ画像をほぼノイズのないソリューション空間にマッピングする。
より優れたノイズフィッティングを実現するため,ジェネレータとしてSimple Multi-versa-scale Network (SMNet) を提案する。
論文 参考訳(メタデータ) (2022-04-06T14:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。