論文の概要: Improving Tuning-Free Real Image Editing with Proximal Guidance
- arxiv url: http://arxiv.org/abs/2306.05414v2
- Date: Thu, 29 Jun 2023 03:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 16:23:37.346226
- Title: Improving Tuning-Free Real Image Editing with Proximal Guidance
- Title(参考訳): 近位誘導によるチューニングフリー実画像編集の改善
- Authors: Ligong Han, Song Wen, Qi Chen, Zhixing Zhang, Kunpeng Song, Mengwei
Ren, Ruijiang Gao, Yuxiao Chen, Di Liu, Qilong Zhangli, Anastasis
Stathopoulos, Jindong Jiang, Zhaoyang Xia, Akash Srivastava, Dimitris Metaxas
- Abstract要約: Null-text Inversion (NTI) はヌル埋め込みを最適化し、再構成とインバージョン軌道をより大きなCFGスケールと整合させる。
NPIは、NTIのトレーニング不要なクローズドフォームソリューションを提供するが、アーティファクトを導入し、DDIMの再構築品質に制約されている。
我々は、相互の自己注意制御を組み込むために概念を拡張し、編集プロセスにおける幾何学的・レイアウト的変更を可能にする。
- 参考スコア(独自算出の注目度): 21.50496075799772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DDIM inversion has revealed the remarkable potential of real image editing
within diffusion-based methods. However, the accuracy of DDIM reconstruction
degrades as larger classifier-free guidance (CFG) scales being used for
enhanced editing. Null-text inversion (NTI) optimizes null embeddings to align
the reconstruction and inversion trajectories with larger CFG scales, enabling
real image editing with cross-attention control. Negative-prompt inversion
(NPI) further offers a training-free closed-form solution of NTI. However, it
may introduce artifacts and is still constrained by DDIM reconstruction
quality. To overcome these limitations, we propose proximal guidance and
incorporate it to NPI with cross-attention control. We enhance NPI with a
regularization term and reconstruction guidance, which reduces artifacts while
capitalizing on its training-free nature. Additionally, we extend the concepts
to incorporate mutual self-attention control, enabling geometry and layout
alterations in the editing process. Our method provides an efficient and
straightforward approach, effectively addressing real image editing tasks with
minimal computational overhead.
- Abstract(参考訳): DDIMインバージョンは拡散法における実際の画像編集の可能性を明らかにした。
しかし、DDIM再構成の精度は、より大きな分類器フリーガイダンス(CFG)スケールが編集の強化に使われているため劣化する。
null-text inversion (nti) は、レコンストラクションとインバージョントラジェクタをより大きなcfgスケールに合わせるためにnull埋め込みを最適化し、クロスアテンション制御による実際の画像編集を可能にする。
負のプロンプト反転(NPI)はさらに、NTIのトレーニング不要閉形式解を提供する。
しかし、アーティファクトを導入し、DDIMの再構築品質に制約されている。
これらの制限を克服するため,我々は近位指導法を提案し,それをNPIに組み込む。
我々は、NPIを正規化期間と再構築指導で強化し、トレーニングフリーな性質を生かしながらアーティファクトを減らす。
さらに,概念を拡張して相互自己着脱制御を組み込むことにより,編集プロセスにおける幾何およびレイアウト変更を可能にする。
提案手法は,計算オーバーヘッドを最小限に抑えることで,実画像編集作業に効果的に対処する。
関連論文リスト
- InverseMeetInsert: Robust Real Image Editing via Geometric Accumulation Inversion in Guided Diffusion Models [20.90990477016161]
GEO(Geometry-Inverse-Meet-Pixel-Insert,略してGeometry-Meet-Pixel-Insert)は、非常に多用途な画像編集技術である。
本手法では,テキストプロンプトと画像プロンプトをシームレスに統合し,多種多様な正確な編集結果を得る。
論文 参考訳(メタデータ) (2024-09-18T06:43:40Z) - SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing [27.81211305463269]
本稿では、ソースとターゲットブランチのガイダンススケールをアンタングルして、元のフレームワークを維持しながらエラーを低減することを提案する。
PIE-Benchの実験により, DDIMインバージョンの性能は, 効率を犠牲にすることなく劇的に向上できることを示した。
論文 参考訳(メタデータ) (2024-09-16T17:10:50Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - ReGANIE: Rectifying GAN Inversion Errors for Accurate Real Image Editing [20.39792009151017]
StyleGANは、セマンティックリッチな潜在スタイル空間を操作することで、生成した画像の柔軟で妥当な編集を可能にする。
実際の画像をその潜在空間に投影することは、反転品質と編集性の間に固有のトレードオフに遭遇する。
本稿では,2つの異なるネットワークをそれぞれ編集と再構築に用い,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-31T04:38:42Z) - Cycle Encoding of a StyleGAN Encoder for Improved Reconstruction and
Editability [76.6724135757723]
GANインバージョンは、事前訓練されたGANの潜在空間に入力イメージを反転させることを目的としている。
GANの逆転の最近の進歩にもかかわらず、歪みと編集性の間のトレードオフを軽減するための課題は残されている。
本稿では、まず入力画像をピボットコードと呼ばれる潜在コードに反転させ、次に、入力画像を正確にピボットコードにマッピングできるようにジェネレータを変更する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-19T16:10:16Z) - Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。
生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。
また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文 参考訳(メタデータ) (2022-07-17T10:34:58Z) - High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。
低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。
高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。