論文の概要: Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion
- arxiv url: http://arxiv.org/abs/2309.04907v1
- Date: Sun, 10 Sep 2023 01:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 15:37:24.247425
- Title: Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion
- Title(参考訳): 反復拡散インバージョンによる効率的な実画像編集
- Authors: Zhihong Pan, Riccardo Gherardi, Xiufeng Xie, Stephen Huang
- Abstract要約: 現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
- 参考スコア(独自算出の注目度): 6.335245465042035
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite all recent progress, it is still challenging to edit and manipulate
natural images with modern generative models. When using Generative Adversarial
Network (GAN), one major hurdle is in the inversion process mapping a real
image to its corresponding noise vector in the latent space, since its
necessary to be able to reconstruct an image to edit its contents. Likewise for
Denoising Diffusion Implicit Models (DDIM), the linearization assumption in
each inversion step makes the whole deterministic inversion process unreliable.
Existing approaches that have tackled the problem of inversion stability often
incur in significant trade-offs in computational efficiency. In this work we
propose an Accelerated Iterative Diffusion Inversion method, dubbed AIDI, that
significantly improves reconstruction accuracy with minimal additional overhead
in space and time complexity. By using a novel blended guidance technique, we
show that effective results can be obtained on a large range of image editing
tasks without large classifier-free guidance in inversion. Furthermore, when
compared with other diffusion inversion based works, our proposed process is
shown to be more robust for fast image editing in the 10 and 20 diffusion
steps' regimes.
- Abstract(参考訳): 最近の進歩にもかかわらず、現代の生成モデルで自然画像の編集と操作は依然として困難である。
GAN(Generative Adversarial Network)を使用する場合、画像の再構成や内容の編集を行う必要があるため、現実の画像を対応するノイズベクトルにマッピングするインバージョンプロセスにおいて大きなハードルとなる。
同様に拡散暗黙モデル(ddim)は、各反転ステップにおける線形化仮定は、決定論的反転過程全体を信頼できない。
反転安定性の問題に取り組む既存のアプローチは、しばしば計算効率に大きなトレードオフをもたらす。
本研究では,AIDIと呼ばれる高速化反復拡散インバージョン手法を提案し,空間および時間のオーバーヘッドを最小限に抑えて再構成精度を大幅に向上させる。
新たな混合指導手法を用いることで,インバージョンにおける大きな分類子なし指導を伴わずに,幅広い画像編集作業において有効な結果が得られることを示す。
さらに,他の拡散反転系作品と比較した場合,提案手法は10および20の拡散ステップの高速画像編集においてより頑健であることが判明した。
関連論文リスト
- Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野では例外的な性能を示した。
その堅牢な生成能力にもかかわらず、これらのモデルはしばしば不正確な逆転に悩まされ、画像やビデオ編集などの下流タスクにおける有効性を制限できる。
本稿では,修正フローODEの解法における誤差を低減し,インバージョン精度を向上させる新しいトレーニングフリーサンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - ERDDCI: Exact Reversible Diffusion via Dual-Chain Inversion for High-Quality Image Editing [20.46262679357339]
拡散モデル(DM)は実画像編集に成功している。
近年のDMは、しばしば局所線形化の仮定に依存している。
ERDDCIは、新しいDual-Chain Inversion (DCI) を用いて関節推論を行い、正確な可逆拡散過程を導出する。
論文 参考訳(メタデータ) (2024-10-18T07:52:03Z) - Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations [41.87051958934507]
本稿では, (i) 逆転と (ii) 修正フローモデル(Flux など)を用いた実画像の編集という2つの重要な課題に対処する。
本手法は,ゼロショット・インバージョン・編集における最先端性能を実現し,ストローク・ツー・イメージ合成やセマンティック・イメージ編集における先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T17:56:24Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps [24.372192691537897]
本研究の目的は, 蒸留されたテキストから画像への拡散モデルに, 実画像の潜在空間へのエンコードを効果的に行うことにある。
Invertible Consistency Distillation (iCD) は,高画質な画像合成と高精度な画像符号化を,わずか3~4ステップで実現する,汎用的な一貫性蒸留フレームワークである。
我々は、ダイナミックガイダンスを備えたiCDが、より高価な最先端の代替品と競合して、ゼロショットテキスト誘導画像編集の高効率ツールとして役立つことを実証した。
論文 参考訳(メタデータ) (2024-06-20T17:49:11Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - EDICT: Exact Diffusion Inversion via Coupled Transformations [13.996171129586731]
拡散過程(反転と呼ばれる)に入力画像を生成する初期ノイズベクトルを見つけることは重要な問題である。
本稿では,アフィン結合層からインスピレーションを得るための逆変換法であるEDICT(Exact Diffusion Inversion)を提案する。
EDICTは、2つの結合ノイズベクトルを維持することにより、実画像とモデル生成画像の数学的に正確な逆変換を可能にする。
論文 参考訳(メタデータ) (2022-11-22T18:02:49Z) - Denoising Diffusion Restoration Models [110.1244240726802]
Denoising Diffusion Restoration Models (DDRM) は効率的で教師なしの後方サンプリング手法である。
DDRMの汎用性を、超高解像度、デブロアリング、インペイント、カラー化のためにいくつかの画像データセットに示す。
論文 参考訳(メタデータ) (2022-01-27T20:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。