論文の概要: Exploring Iterative Manifold Constraint for Zero-shot Image Editing
- arxiv url: http://arxiv.org/abs/2501.03631v2
- Date: Tue, 11 Feb 2025 09:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:04:01.218221
- Title: Exploring Iterative Manifold Constraint for Zero-shot Image Editing
- Title(参考訳): ゼロショット画像編集のための反復的マニフォールド制約の探索
- Authors: Maomao Li, Yu Li, Yunfei Liu, Dong Xu,
- Abstract要約: 我々はZZEditと呼ばれる新しいゼロショット編集パラダイムを提案する。
より優れた編集ピボットとして$z_p$とマークされた適格な中間反転子を見つける。
我々のZZEditは、$M_p$と$M_p-1$の多様体間の反復多様体制約を実行し、忠実度誤差を少なくする。
- 参考スコア(独自算出の注目度): 38.7483790652481
- License:
- Abstract: Editability and fidelity are two essential demands for text-driven image editing, which expects that the editing area should align with the target prompt and the rest remain unchanged separately. The current cutting-edge editing methods usually obey an "inversion-then-editing" pipeline, where the input image is inverted to an approximate Gaussian noise ${z}_T$, based on which a sampling process is conducted using the target prompt. Nevertheless, we argue that it is not a good choice to use a near-Gaussian noise as a pivot for further editing since it would bring plentiful fidelity errors. We verify this by a pilot analysis, discovering that intermediate-inverted latents can achieve a better trade-off between editability and fidelity than the fully-inverted ${z}_T$. Based on this, we propose a novel zero-shot editing paradigm dubbed ZZEdit, which first locates a qualified intermediate-inverted latent marked as ${z}_p$ as a better editing pivot, which is sufficient-for-editing while structure-preserving. Then, a ZigZag process is designed to execute denoising and inversion alternately, which progressively inject target guidance to ${z}_p$ while preserving the structure information of $p$ step. Afterwards, to achieve the same step number of inversion and denoising, we execute a pure sampling process under the target prompt. Essentially, our ZZEdit performs iterative manifold constraint between the manifold of $M_{p}$ and $M_{p-1}$, leading to fewer fidelity errors. Extensive experiments highlight the effectiveness of ZZEdit in diverse image editing scenarios compared with the "inversion-then-editing" pipeline.
- Abstract(参考訳): 編集性と忠実性はテキスト駆動の画像編集に必須の2つの要件であり、編集領域はターゲットのプロンプトと一致すべきであり、残りの部分は別途変更されない。
現在の最先端編集法は、通常、入力画像がターゲットプロンプトを用いてサンプリングプロセスを実行するガウスノイズ${z}_T$に逆変換される「反転編集」パイプラインに従う。
それでも我々は、ガウスに近いノイズをさらなる編集の要点として使うのは良い選択ではないと論じている。
我々はこれをパイロット解析により検証し、中間反転潜水剤が完全反転の${z}_T$よりも編集可能性と忠実性の間のトレードオフをよりよく達成できることを発見した。
そこで本稿では,ZZEditという新たなゼロショット編集パラダイムを提案する。ZZEditは,まず,より優れた編集ピボットとして${z}_p$とマークされた適格な中間反転子を配置する。
次に、ZigZagプロセスは、段階的にターゲットガイダンスを${z}_p$にインジェクションし、$p$の構造化情報を保持しながら、段階的に denoising と inversion を交互に実行するように設計されている。
その後、インバージョンとデノベーションの同じステップ数を達成するために、ターゲットプロンプトの下で純粋なサンプリング処理を実行する。
本質的には、ZZEditは$M_{p}$と$M_{p-1}$の多様体間の反復多様体制約を実行し、忠実度誤差を少なくする。
大規模な実験は、様々な画像編集シナリオにおけるZZEditの有効性を強調している。
関連論文リスト
- Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing [43.97960454977206]
本稿では,フロートランスを用いた拡散インバージョンと分散制御について解析する。
本稿では,まず速度推定を洗練し,残り誤差を補償する2段階逆転法を提案する。
この機構は、剛性および非剛性操作を許容しながら、非ターゲット内容の同時保存を可能にする。
論文 参考訳(メタデータ) (2024-11-24T13:48:16Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models [44.26371926512843]
我々は、プログレッシブな$textbfFre$qu$textbfe$ncy truncationを用いて、ユニバーサル編集タスクのための$textbfDiff$usionモデルのガイダンスを洗練するために、新しいフリーアプローチを導入する。
本手法は,様々な編集タスクや多様な画像に対して,最先端の手法で比較結果を得る。
論文 参考訳(メタデータ) (2024-04-18T04:47:28Z) - Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models [18.75409092764653]
テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。
本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。
実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-03-17T06:19:30Z) - Doubly Abductive Counterfactual Inference for Text-based Image Editing [130.46583155383735]
本稿では,1つの画像のテキストベースの画像編集(TBIE)について,反事実推論を用いて検討する。
本稿では,DAC(Dububly Abductive Counterfactual Inference framework)を提案する。
我々のDACは編集性と忠実さのトレードオフをうまく達成しています。
論文 参考訳(メタデータ) (2024-03-05T13:59:21Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - SDEdit: Image Synthesis and Editing with Stochastic Differential
Equations [113.35735935347465]
微分方程式を用いた最近の生成モデルに基づく微分編集(SDEdit)を導入する。
ユーザが編集した入力画像が与えられたら、まずSDEに従って入力にノイズを付加し、その後、逆SDEをシミュレートして、その確率を前より徐々に増加させます。
GANインバージョンに基づく最近の画像編集手法において重要な要素であるタスク固有損失関数の設計は不要である。
論文 参考訳(メタデータ) (2021-08-02T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。