論文の概要: EDICT: Exact Diffusion Inversion via Coupled Transformations
- arxiv url: http://arxiv.org/abs/2211.12446v1
- Date: Tue, 22 Nov 2022 18:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:34:22.265378
- Title: EDICT: Exact Diffusion Inversion via Coupled Transformations
- Title(参考訳): EDICT: 結合変換による厳密な拡散インバージョン
- Authors: Bram Wallace, Akash Gokul, Nikhil Naik
- Abstract要約: 拡散過程(反転と呼ばれる)に入力画像を生成する初期ノイズベクトルを見つけることは重要な問題である。
本稿では,アフィン結合層からインスピレーションを得るための逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
- 参考スコア(独自算出の注目度): 13.996171129586731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding an initial noise vector that produces an input image when fed into
the diffusion process (known as inversion) is an important problem in denoising
diffusion models (DDMs), with applications for real image editing. The
state-of-the-art approach for real image editing with inversion uses denoising
diffusion implicit models (DDIMs) to deterministically noise the image to the
intermediate state along the path that the denoising would follow given the
original conditioning. However, DDIM inversion for real images is unstable as
it relies on local linearization assumptions, which result in the propagation
of errors, leading to incorrect image reconstruction and loss of content. To
alleviate these problems, we propose Exact Diffusion Inversion via Coupled
Transformations (EDICT), an inversion method that draws inspiration from affine
coupling layers. EDICT enables mathematically exact inversion of real and
model-generated images by maintaining two coupled noise vectors which are used
to invert each other in an alternating fashion. Using Stable Diffusion, a
state-of-the-art latent diffusion model, we demonstrate that EDICT successfully
reconstructs real images with high fidelity. On complex image datasets like
MS-COCO, EDICT reconstruction significantly outperforms DDIM, improving the
mean square error of reconstruction by a factor of two. Using noise vectors
inverted from real images, EDICT enables a wide range of image edits--from
local and global semantic edits to image stylization--while maintaining
fidelity to the original image structure. EDICT requires no model
training/finetuning, prompt tuning, or extra data and can be combined with any
pretrained DDM. Code will be made available shortly.
- Abstract(参考訳): 拡散過程(逆変換と呼ばれる)に入力された画像を生成する初期ノイズベクトルを見つけることは、拡散モデル(DDM)を実画像編集に応用する上で重要な問題である。
インバージョンによる実際の画像編集の最先端のアプローチでは、拡散暗黙的モデル(DDIM)をデノナイズし、元の条件が与えられた経路に沿って画像が中間状態に決定的にノイズを与える。
しかし、実画像に対するDDIMの逆変換は、局所線形化仮定に依存するため不安定であり、エラーの伝播を招き、誤った画像再構成とコンテンツの損失をもたらす。
これらの問題を緩和するために、アフィン結合層からインスピレーションを得る逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、相互に交互に反転する2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
最先端の潜伏拡散モデルである安定拡散を用いて,EDICTが高忠実度で実画像の再構成に成功したことを示す。
MS-COCOのような複雑な画像データセットでは、EDICT再構成はDDIMを著しく上回り、2倍の平均2乗誤差を改善する。
実画像から反転したノイズベクトルを用いることで,局所的およびグローバル的な意味的編集から画像スタイライゼーションまで,元の画像構造への忠実性を維持しながら,幅広い画像編集を可能にする。
EDICTはモデルトレーニングやファインタニング、プロンプトチューニング、追加データを必要としないため、事前訓練されたDDMと組み合わせることができる。
コードは間もなく利用可能になる。
関連論文リスト
- MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image
Editing [63.89492742059184]
本稿では,LDM(Latent Image-to-image Translation Model)に対するCDS(Contrastive Denoising Score)の変更について述べる。
具体的には,フレームワーク内のCUT損失を用いて構造的整合性を制御するための簡単なアプローチを提案する。
提案手法は,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集を可能にする。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - Stimulating the Diffusion Model for Image Denoising via Adaptive
Embedding and Ensembling [60.62249137139699]
DMID(Diffusion Model for Image Denoising)と呼ばれる新しい手法を提案する。
我々の戦略は、雑音のある画像を事前訓練された非条件拡散モデルに埋め込む適応的な埋め込み法を含む。
我々のDMID戦略は、歪みベースと知覚ベースの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-08T14:59:41Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。