Fugu-MT 論文翻訳(概要): Tuning-Free Inversion-Enhanced Control for Consistent Image Editing

論文の概要: Tuning-Free Inversion-Enhanced Control for Consistent Image Editing

arxiv url: http://arxiv.org/abs/2312.14611v1
Date: Fri, 22 Dec 2023 11:13:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 15:15:52.834281
Title: Tuning-Free Inversion-Enhanced Control for Consistent Image Editing
Title（参考訳）: 一貫した画像編集のためのチューニングフリーインバージョンエンハンスド制御
Authors: Xiaoyue Duan, Shuhao Cui, Guoliang Kang, Baochang Zhang, Zhengcong Fei, Mingyuan Fan, Junshi Huang
Abstract要約: 我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。 TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
参考スコア（独自算出の注目度）: 44.311286151669464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Consistent editing of real images is a challenging task, as it requires performing non-rigid edits (e.g., changing postures) to the main objects in the input image without changing their identity or attributes. To guarantee consistent attributes, some existing methods fine-tune the entire model or the textual embedding for structural consistency, but they are time-consuming and fail to perform non-rigid edits. Other works are tuning-free, but their performances are weakened by the quality of Denoising Diffusion Implicit Model (DDIM) reconstruction, which often fails in real-world scenarios. In this paper, we present a novel approach called Tuning-free Inversion-enhanced Control (TIC), which directly correlates features from the inversion process with those from the sampling process to mitigate the inconsistency in DDIM reconstruction. Specifically, our method effectively obtains inversion features from the key and value features in the self-attention layers, and enhances the sampling process by these inversion features, thus achieving accurate reconstruction and content-consistent editing. To extend the applicability of our method to general editing scenarios, we also propose a mask-guided attention concatenation strategy that combines contents from both the inversion and the naive DDIM editing processes. Experiments show that the proposed method outperforms previous works in reconstruction and consistent editing, and produces impressive results in various settings.
Abstract（参考訳）: 実際の画像の一貫性のある編集は、アイデンティティや属性を変更することなく、入力画像のメインオブジェクトへの非厳密な編集(例えば姿勢の変更)を行う必要があるため、難しい作業である。一貫性のある属性を保証するために、既存のメソッドは構造的な一貫性のためにモデル全体やテキストの埋め込みを微調整するが、時間がかかり、厳密でない編集を行わない。他にもチューニングフリーな作品もあるが、実世界のシナリオではしばしば失敗するDDIM(Denoising Diffusion Implicit Model)の再構築によってパフォーマンスが低下している。本稿では, インバージョンプロセスの特徴とサンプリングプロセスの特徴を直接相関させて, DDIM再構成の不整合を緩和する, Tuning-free Inversion-enhanced Control (TIC) という新しい手法を提案する。具体的には、本手法は、自己保持層におけるキーおよび値の特徴から反転特徴を効果的に取得し、これらの反転特徴によりサンプリングプロセスを強化し、正確な再構成とコンテンツ一貫性編集を実現する。また,本手法の適用性を一般的な編集シナリオに拡張するために,インバージョンと単純なDDIM編集プロセスの内容を組み合わせたマスク誘導型注意結合戦略を提案する。実験の結果,提案手法は従来の再構成や一貫した編集に優れており,様々な設定で印象的な結果が得られることがわかった。

関連論文リスト

Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。 LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文参考訳（メタデータ） (2025-02-05T06:24:25Z)
Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文参考訳（メタデータ） (2024-11-29T12:11:28Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
Latent Inversion with Timestep-aware Sampling for Training-free Non-rigid Editing [56.536695050042546]
安定拡散を用いた非剛性編集のための学習自由アプローチを提案する。提案手法は,テキスト最適化,潜時反転,タイムステップ対応テキストインジェクションサンプリングの3段階からなる。本手法の有効性を,アイデンティティの保存,編集性,美的品質の観点から示す。
論文参考訳（メタデータ） (2024-02-13T17:08:35Z)
Noise Map Guidance: Inversion with Spatial Context for Real Image Editing [23.513950664274997]
テキスト誘導拡散モデルは画像合成において一般的なツールとなり、高品質で多様な画像を生成することで知られている。実際の画像の編集への応用は、復元品質を劣化させ、その後編集の忠実度に影響を及ぼすため、しばしばハードルに直面する。実画像編集に適した空間文脈に富んだ逆解析手法であるノイズマップガイダンス(NMG)を提案する。
論文参考訳（メタデータ） (2024-02-07T07:16:12Z)
Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。 InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文参考訳（メタデータ） (2023-12-07T18:58:27Z)
Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-18T17:59:02Z)
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文参考訳（メタデータ） (2023-07-02T09:11:09Z)
Improving Tuning-Free Real Image Editing with Proximal Guidance [21.070356480624397]
Null-text Inversion (NTI) はヌル埋め込みを最適化し、再構成とインバージョン軌道をより大きなCFGスケールと整合させる。 NPIは、NTIのトレーニング不要なクローズドフォームソリューションを提供するが、アーティファクトを導入し、DDIMの再構築品質に制約されている。我々は、相互の自己注意制御を組み込むために概念を拡張し、編集プロセスにおける幾何学的・レイアウト的変更を可能にする。
論文参考訳（メタデータ） (2023-06-08T17:57:18Z)
Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文参考訳（メタデータ） (2022-07-17T10:34:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。