論文の概要: Tuning-Free Inversion-Enhanced Control for Consistent Image Editing
- arxiv url: http://arxiv.org/abs/2312.14611v1
- Date: Fri, 22 Dec 2023 11:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:15:52.834281
- Title: Tuning-Free Inversion-Enhanced Control for Consistent Image Editing
- Title(参考訳): 一貫した画像編集のためのチューニングフリーインバージョンエンハンスド制御
- Authors: Xiaoyue Duan, Shuhao Cui, Guoliang Kang, Baochang Zhang, Zhengcong
Fei, Mingyuan Fan, Junshi Huang
- Abstract要約: 我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
- 参考スコア(独自算出の注目度): 44.311286151669464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistent editing of real images is a challenging task, as it requires
performing non-rigid edits (e.g., changing postures) to the main objects in the
input image without changing their identity or attributes. To guarantee
consistent attributes, some existing methods fine-tune the entire model or the
textual embedding for structural consistency, but they are time-consuming and
fail to perform non-rigid edits. Other works are tuning-free, but their
performances are weakened by the quality of Denoising Diffusion Implicit Model
(DDIM) reconstruction, which often fails in real-world scenarios. In this
paper, we present a novel approach called Tuning-free Inversion-enhanced
Control (TIC), which directly correlates features from the inversion process
with those from the sampling process to mitigate the inconsistency in DDIM
reconstruction. Specifically, our method effectively obtains inversion features
from the key and value features in the self-attention layers, and enhances the
sampling process by these inversion features, thus achieving accurate
reconstruction and content-consistent editing. To extend the applicability of
our method to general editing scenarios, we also propose a mask-guided
attention concatenation strategy that combines contents from both the inversion
and the naive DDIM editing processes. Experiments show that the proposed method
outperforms previous works in reconstruction and consistent editing, and
produces impressive results in various settings.
- Abstract(参考訳): 実際の画像の一貫性のある編集は、アイデンティティや属性を変更することなく、入力画像のメインオブジェクトへの非厳密な編集(例えば姿勢の変更)を行う必要があるため、難しい作業である。
一貫性のある属性を保証するために、既存のメソッドは構造的な一貫性のためにモデル全体やテキストの埋め込みを微調整するが、時間がかかり、厳密でない編集を行わない。
他にもチューニングフリーな作品もあるが、実世界のシナリオではしばしば失敗するDDIM(Denoising Diffusion Implicit Model)の再構築によってパフォーマンスが低下している。
本稿では, インバージョンプロセスの特徴とサンプリングプロセスの特徴を直接相関させて, DDIM再構成の不整合を緩和する, Tuning-free Inversion-enhanced Control (TIC) という新しい手法を提案する。
具体的には、本手法は、自己保持層におけるキーおよび値の特徴から反転特徴を効果的に取得し、これらの反転特徴によりサンプリングプロセスを強化し、正確な再構成とコンテンツ一貫性編集を実現する。
また,本手法の適用性を一般的な編集シナリオに拡張するために,インバージョンと単純なDDIM編集プロセスの内容を組み合わせたマスク誘導型注意結合戦略を提案する。
実験の結果,提案手法は従来の再構成や一貫した編集に優れており,様々な設定で印象的な結果が得られることがわかった。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Latent Inversion with Timestep-aware Sampling for Training-free Non-rigid Editing [56.536695050042546]
安定拡散を用いた非剛性編集のための学習自由アプローチを提案する。
提案手法は,テキスト最適化,潜時反転,タイムステップ対応テキストインジェクションサンプリングの3段階からなる。
本手法の有効性を,アイデンティティの保存,編集性,美的品質の観点から示す。
論文 参考訳(メタデータ) (2024-02-13T17:08:35Z) - Noise Map Guidance: Inversion with Spatial Context for Real Image
Editing [23.513950664274997]
テキスト誘導拡散モデルは画像合成において一般的なツールとなり、高品質で多様な画像を生成することで知られている。
実際の画像の編集への応用は、復元品質を劣化させ、その後編集の忠実度に影響を及ぼすため、しばしばハードルに直面する。
実画像編集に適した空間文脈に富んだ逆解析手法であるノイズマップガイダンス(NMG)を提案する。
論文 参考訳(メタデータ) (2024-02-07T07:16:12Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - Improving Tuning-Free Real Image Editing with Proximal Guidance [21.070356480624397]
Null-text Inversion (NTI) はヌル埋め込みを最適化し、再構成とインバージョン軌道をより大きなCFGスケールと整合させる。
NPIは、NTIのトレーニング不要なクローズドフォームソリューションを提供するが、アーティファクトを導入し、DDIMの再構築品質に制約されている。
我々は、相互の自己注意制御を組み込むために概念を拡張し、編集プロセスにおける幾何学的・レイアウト的変更を可能にする。
論文 参考訳(メタデータ) (2023-06-08T17:57:18Z) - Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。
生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。
また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文 参考訳(メタデータ) (2022-07-17T10:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。