Fugu-MT 論文翻訳(概要): Improving Tuning-Free Real Image Editing with Proximal Guidance

論文の概要: Improving Tuning-Free Real Image Editing with Proximal Guidance

arxiv url: http://arxiv.org/abs/2306.05414v3
Date: Thu, 6 Jul 2023 01:40:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 17:10:21.537157
Title: Improving Tuning-Free Real Image Editing with Proximal Guidance
Title（参考訳）: 近位誘導によるチューニングフリー実画像編集の改善
Authors: Ligong Han, Song Wen, Qi Chen, Zhixing Zhang, Kunpeng Song, Mengwei Ren, Ruijiang Gao, Anastasis Stathopoulos, Xiaoxiao He, Yuxiao Chen, Di Liu, Qilong Zhangli, Jindong Jiang, Zhaoyang Xia, Akash Srivastava, Dimitris Metaxas
Abstract要約: Null-text Inversion (NTI) はヌル埋め込みを最適化し、再構成とインバージョン軌道をより大きなCFGスケールと整合させる。 NPIは、NTIのトレーニング不要なクローズドフォームソリューションを提供するが、アーティファクトを導入し、DDIMの再構築品質に制約されている。我々は、相互の自己注意制御を組み込むために概念を拡張し、編集プロセスにおける幾何学的・レイアウト的変更を可能にする。
参考スコア（独自算出の注目度）: 21.070356480624397
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: DDIM inversion has revealed the remarkable potential of real image editing within diffusion-based methods. However, the accuracy of DDIM reconstruction degrades as larger classifier-free guidance (CFG) scales being used for enhanced editing. Null-text inversion (NTI) optimizes null embeddings to align the reconstruction and inversion trajectories with larger CFG scales, enabling real image editing with cross-attention control. Negative-prompt inversion (NPI) further offers a training-free closed-form solution of NTI. However, it may introduce artifacts and is still constrained by DDIM reconstruction quality. To overcome these limitations, we propose proximal guidance and incorporate it to NPI with cross-attention control. We enhance NPI with a regularization term and reconstruction guidance, which reduces artifacts while capitalizing on its training-free nature. Additionally, we extend the concepts to incorporate mutual self-attention control, enabling geometry and layout alterations in the editing process. Our method provides an efficient and straightforward approach, effectively addressing real image editing tasks with minimal computational overhead.
Abstract（参考訳）: DDIMインバージョンは拡散法における実際の画像編集の可能性を明らかにした。しかし、DDIM再構成の精度は、より大きな分類器フリーガイダンス(CFG)スケールが編集の強化に使われているため劣化する。 null-text inversion (nti) は、レコンストラクションとインバージョントラジェクタをより大きなcfgスケールに合わせるためにnull埋め込みを最適化し、クロスアテンション制御による実際の画像編集を可能にする。負のプロンプト反転(NPI)はさらに、NTIのトレーニング不要閉形式解を提供する。しかし、アーティファクトを導入し、DDIMの再構築品質に制約されている。これらの制限を克服するため,我々は近位指導法を提案し,それをNPIに組み込む。我々は、NPIを正規化期間と再構築指導で強化し、トレーニングフリーな性質を生かしながらアーティファクトを減らす。さらに,概念を拡張して相互自己着脱制御を組み込むことにより,編集プロセスにおける幾何およびレイアウト変更を可能にする。提案手法は,計算オーバーヘッドを最小限に抑えることで,実画像編集作業に効果的に対処する。

関連論文リスト

AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文参考訳（メタデータ） (2025-06-16T09:42:38Z)
DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing [73.12011187146481]
Diffusionモデル内のインバージョンは、実または生成された画像の潜時雑音表現を復元することを目的としている。ほとんどの反転アプローチは、復元精度と編集の柔軟性の間の本質的にのトレードオフに悩まされている。本稿ではDCI(Dual-Conditional Inversion)について紹介する。
論文参考訳（メタデータ） (2025-06-03T07:46:44Z)
Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。 LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文参考訳（メタデータ） (2025-02-05T06:24:25Z)
Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文参考訳（メタデータ） (2024-11-29T12:11:28Z)
Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文参考訳（メタデータ） (2024-11-07T14:29:02Z)
InverseMeetInsert: Robust Real Image Editing via Geometric Accumulation Inversion in Guided Diffusion Models [20.90990477016161]
GEO(Geometry-Inverse-Meet-Pixel-Insert,略してGeometry-Meet-Pixel-Insert)は、非常に多用途な画像編集技術である。本手法では,テキストプロンプトと画像プロンプトをシームレスに統合し,多種多様な正確な編集結果を得る。
論文参考訳（メタデータ） (2024-09-18T06:43:40Z)
SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing [27.81211305463269]
本稿では、ソースとターゲットブランチのガイダンススケールをアンタングルして、元のフレームワークを維持しながらエラーを低減することを提案する。 PIE-Benchの実験により, DDIMインバージョンの性能は, 効率を犠牲にすることなく劇的に向上できることを示した。
論文参考訳（メタデータ） (2024-09-16T17:10:50Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。 TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文参考訳（メタデータ） (2023-12-22T11:13:22Z)
In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文参考訳（メタデータ） (2023-09-25T08:42:06Z)
Effective Real Image Editing with Accelerated Iterative Diffusion Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文参考訳（メタデータ） (2023-09-10T01:23:05Z)
ReGANIE: Rectifying GAN Inversion Errors for Accurate Real Image Editing [20.39792009151017]
StyleGANは、セマンティックリッチな潜在スタイル空間を操作することで、生成した画像の柔軟で妥当な編集を可能にする。実際の画像をその潜在空間に投影することは、反転品質と編集性の間に固有のトレードオフに遭遇する。本稿では,2つの異なるネットワークをそれぞれ編集と再構築に用い,新しい2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2023-01-31T04:38:42Z)
Cycle Encoding of a StyleGAN Encoder for Improved Reconstruction and Editability [76.6724135757723]
GANインバージョンは、事前訓練されたGANの潜在空間に入力イメージを反転させることを目的としている。 GANの逆転の最近の進歩にもかかわらず、歪みと編集性の間のトレードオフを軽減するための課題は残されている。本稿では、まず入力画像をピボットコードと呼ばれる潜在コードに反転させ、次に、入力画像を正確にピボットコードにマッピングできるようにジェネレータを変更する2段階のアプローチを提案する。
論文参考訳（メタデータ） (2022-07-19T16:10:16Z)
Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文参考訳（メタデータ） (2022-07-17T10:34:58Z)
High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文参考訳（メタデータ） (2021-09-14T11:23:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。