論文の概要: Tuning-Free Inversion-Enhanced Control for Consistent Image Editing
- arxiv url: http://arxiv.org/abs/2312.14611v1
- Date: Fri, 22 Dec 2023 11:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:15:52.834281
- Title: Tuning-Free Inversion-Enhanced Control for Consistent Image Editing
- Title(参考訳): 一貫した画像編集のためのチューニングフリーインバージョンエンハンスド制御
- Authors: Xiaoyue Duan, Shuhao Cui, Guoliang Kang, Baochang Zhang, Zhengcong
Fei, Mingyuan Fan, Junshi Huang
- Abstract要約: 我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
- 参考スコア(独自算出の注目度): 44.311286151669464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistent editing of real images is a challenging task, as it requires
performing non-rigid edits (e.g., changing postures) to the main objects in the
input image without changing their identity or attributes. To guarantee
consistent attributes, some existing methods fine-tune the entire model or the
textual embedding for structural consistency, but they are time-consuming and
fail to perform non-rigid edits. Other works are tuning-free, but their
performances are weakened by the quality of Denoising Diffusion Implicit Model
(DDIM) reconstruction, which often fails in real-world scenarios. In this
paper, we present a novel approach called Tuning-free Inversion-enhanced
Control (TIC), which directly correlates features from the inversion process
with those from the sampling process to mitigate the inconsistency in DDIM
reconstruction. Specifically, our method effectively obtains inversion features
from the key and value features in the self-attention layers, and enhances the
sampling process by these inversion features, thus achieving accurate
reconstruction and content-consistent editing. To extend the applicability of
our method to general editing scenarios, we also propose a mask-guided
attention concatenation strategy that combines contents from both the inversion
and the naive DDIM editing processes. Experiments show that the proposed method
outperforms previous works in reconstruction and consistent editing, and
produces impressive results in various settings.
- Abstract(参考訳): 実際の画像の一貫性のある編集は、アイデンティティや属性を変更することなく、入力画像のメインオブジェクトへの非厳密な編集(例えば姿勢の変更)を行う必要があるため、難しい作業である。
一貫性のある属性を保証するために、既存のメソッドは構造的な一貫性のためにモデル全体やテキストの埋め込みを微調整するが、時間がかかり、厳密でない編集を行わない。
他にもチューニングフリーな作品もあるが、実世界のシナリオではしばしば失敗するDDIM(Denoising Diffusion Implicit Model)の再構築によってパフォーマンスが低下している。
本稿では, インバージョンプロセスの特徴とサンプリングプロセスの特徴を直接相関させて, DDIM再構成の不整合を緩和する, Tuning-free Inversion-enhanced Control (TIC) という新しい手法を提案する。
具体的には、本手法は、自己保持層におけるキーおよび値の特徴から反転特徴を効果的に取得し、これらの反転特徴によりサンプリングプロセスを強化し、正確な再構成とコンテンツ一貫性編集を実現する。
また,本手法の適用性を一般的な編集シナリオに拡張するために,インバージョンと単純なDDIM編集プロセスの内容を組み合わせたマスク誘導型注意結合戦略を提案する。
実験の結果,提案手法は従来の再構成や一貫した編集に優れており,様々な設定で印象的な結果が得られることがわかった。
関連論文リスト
- Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Noise Map Guidance: Inversion with Spatial Context for Real Image
Editing [23.513950664274997]
テキスト誘導拡散モデルは画像合成において一般的なツールとなり、高品質で多様な画像を生成することで知られている。
実際の画像の編集への応用は、復元品質を劣化させ、その後編集の忠実度に影響を及ぼすため、しばしばハードルに直面する。
実画像編集に適した空間文脈に富んだ逆解析手法であるノイズマップガイダンス(NMG)を提案する。
論文 参考訳(メタデータ) (2024-02-07T07:16:12Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。
生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。
また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文 参考訳(メタデータ) (2022-07-17T10:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。