論文の概要: Improving Tuning-Free Real Image Editing with Proximal Guidance
- arxiv url: http://arxiv.org/abs/2306.05414v3
- Date: Thu, 6 Jul 2023 01:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 17:10:21.537157
- Title: Improving Tuning-Free Real Image Editing with Proximal Guidance
- Title(参考訳): 近位誘導によるチューニングフリー実画像編集の改善
- Authors: Ligong Han, Song Wen, Qi Chen, Zhixing Zhang, Kunpeng Song, Mengwei
Ren, Ruijiang Gao, Anastasis Stathopoulos, Xiaoxiao He, Yuxiao Chen, Di Liu,
Qilong Zhangli, Jindong Jiang, Zhaoyang Xia, Akash Srivastava, Dimitris
Metaxas
- Abstract要約: Null-text Inversion (NTI) はヌル埋め込みを最適化し、再構成とインバージョン軌道をより大きなCFGスケールと整合させる。
NPIは、NTIのトレーニング不要なクローズドフォームソリューションを提供するが、アーティファクトを導入し、DDIMの再構築品質に制約されている。
我々は、相互の自己注意制御を組み込むために概念を拡張し、編集プロセスにおける幾何学的・レイアウト的変更を可能にする。
- 参考スコア(独自算出の注目度): 21.070356480624397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DDIM inversion has revealed the remarkable potential of real image editing
within diffusion-based methods. However, the accuracy of DDIM reconstruction
degrades as larger classifier-free guidance (CFG) scales being used for
enhanced editing. Null-text inversion (NTI) optimizes null embeddings to align
the reconstruction and inversion trajectories with larger CFG scales, enabling
real image editing with cross-attention control. Negative-prompt inversion
(NPI) further offers a training-free closed-form solution of NTI. However, it
may introduce artifacts and is still constrained by DDIM reconstruction
quality. To overcome these limitations, we propose proximal guidance and
incorporate it to NPI with cross-attention control. We enhance NPI with a
regularization term and reconstruction guidance, which reduces artifacts while
capitalizing on its training-free nature. Additionally, we extend the concepts
to incorporate mutual self-attention control, enabling geometry and layout
alterations in the editing process. Our method provides an efficient and
straightforward approach, effectively addressing real image editing tasks with
minimal computational overhead.
- Abstract(参考訳): DDIMインバージョンは拡散法における実際の画像編集の可能性を明らかにした。
しかし、DDIM再構成の精度は、より大きな分類器フリーガイダンス(CFG)スケールが編集の強化に使われているため劣化する。
null-text inversion (nti) は、レコンストラクションとインバージョントラジェクタをより大きなcfgスケールに合わせるためにnull埋め込みを最適化し、クロスアテンション制御による実際の画像編集を可能にする。
負のプロンプト反転(NPI)はさらに、NTIのトレーニング不要閉形式解を提供する。
しかし、アーティファクトを導入し、DDIMの再構築品質に制約されている。
これらの制限を克服するため,我々は近位指導法を提案し,それをNPIに組み込む。
我々は、NPIを正規化期間と再構築指導で強化し、トレーニングフリーな性質を生かしながらアーティファクトを減らす。
さらに,概念を拡張して相互自己着脱制御を組み込むことにより,編集プロセスにおける幾何およびレイアウト変更を可能にする。
提案手法は,計算オーバーヘッドを最小限に抑えることで,実画像編集作業に効果的に対処する。
関連論文リスト
- Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing [27.81211305463269]
本稿では、ソースとターゲットブランチのガイダンススケールをアンタングルして、元のフレームワークを維持しながらエラーを低減することを提案する。
PIE-Benchの実験により, DDIMインバージョンの性能は, 効率を犠牲にすることなく劇的に向上できることを示した。
論文 参考訳(メタデータ) (2024-09-16T17:10:50Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - ReGANIE: Rectifying GAN Inversion Errors for Accurate Real Image Editing [20.39792009151017]
StyleGANは、セマンティックリッチな潜在スタイル空間を操作することで、生成した画像の柔軟で妥当な編集を可能にする。
実際の画像をその潜在空間に投影することは、反転品質と編集性の間に固有のトレードオフに遭遇する。
本稿では,2つの異なるネットワークをそれぞれ編集と再構築に用い,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-31T04:38:42Z) - Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。
生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。
また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文 参考訳(メタデータ) (2022-07-17T10:34:58Z) - High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。
低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。
高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。