論文の概要: Exploring Optimal Latent Trajetory for Zero-shot Image Editing
- arxiv url: http://arxiv.org/abs/2501.03631v1
- Date: Tue, 07 Jan 2025 09:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:31.394422
- Title: Exploring Optimal Latent Trajetory for Zero-shot Image Editing
- Title(参考訳): ゼロショット画像編集のための最適遅延軌道探索
- Authors: Maomao Li, Yu Li, Yunfei Liu, Dong Xu,
- Abstract要約: 我々は、ほぼすべての構造的忠実性を失ったため、ガウス近辺のノイズをさらなる編集の要点として使うのは良い選択ではないと論じる。
本稿では,ZZEditという新しい編集パラダイムを提案する。
- 参考スコア(独自算出の注目度): 38.7483790652481
- License:
- Abstract: Editability and fidelity are two essential demands for text-driven image editing, which expects that the editing area should align with the target prompt and the rest should remain unchanged separately. The current cutting-edge editing methods usually obey an "inversion-then-editing" pipeline, where the source image is first inverted to an approximate Gaussian noise ${z}_T$, based on which a sampling process is conducted using the target prompt. Nevertheless, we argue that it is not a good choice to use a near-Gaussian noise as a pivot for further editing since it almost lost all structure fidelity. We verify this by a pilot experiment, discovering that some intermediate-inverted latents can achieve a better trade-off between editability and fidelity than the fully-inverted ${z}_T$. Based on this, we propose a novel editing paradigm dubbed ZZEdit, which gentlely strengthens the target guidance on a sufficient-for-editing while structure-preserving latent. Specifically, we locate such an editing pivot by searching the first point on the inversion trajectory which has larger response levels toward the target prompt than the source one. Then, we propose a ZigZag process to perform mild target guiding on this pivot, which fulfills denoising and inversion iteratively, approaching the target while still holding fidelity. Afterwards, to achieve the same number of inversion and denoising steps, we perform a pure sampling process under the target prompt. Extensive experiments highlight the effectiveness of our ZZEdit in diverse image editing scenarios compared with the "inversion-then-editing" pipeline.
- Abstract(参考訳): 編集性と忠実性はテキスト駆動の画像編集に必須の2つの要件であり、編集領域はターゲットのプロンプトと一致すべきであり、残りは別途変更されなければならないと期待されている。
現在の最先端編集法は、通常「反転編集」パイプラインに従っており、ソース画像はまずターゲットプロンプトを用いてサンプリングプロセスを実行するガウスノイズ${z}_T$に逆変換される。
それでも我々は、ほぼすべての構造的忠実性を失ったため、ガウス近傍のノイズをさらなる編集の要点として使うのは良い選択ではないと論じている。
我々はこれをパイロット実験で検証し、一部の中間反転潜水剤が完全反転の${z}_T$よりも編集可能性と忠実さのトレードオフを得られることを発見した。
そこで本研究では,ZZEditという新たな編集パラダイムを提案する。
具体的には、ソースよりもターゲットへの応答レベルが大きい逆軌道上の第1点を探索することで、そのような編集のピボットを見つける。
そこで本研究では,このピボットを軽度に誘導するZigZagプロセスを提案する。
その後、インバージョンとデノベーションステップの同一数を達成するために、ターゲットプロンプトの下で純粋なサンプリング処理を行う。
大規模な実験では、さまざまな画像編集シナリオにおけるZZEditの有効性が、"インバージョン・then-editing"パイプラインと比較して強調されている。
関連論文リスト
- Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing [43.97960454977206]
本稿では,フロートランスを用いた拡散インバージョンと分散制御について解析する。
本稿では,まず速度推定を洗練し,残り誤差を補償する2段階逆転法を提案する。
この機構は、剛性および非剛性操作を許容しながら、非ターゲット内容の同時保存を可能にする。
論文 参考訳(メタデータ) (2024-11-24T13:48:16Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models [44.26371926512843]
我々は、プログレッシブな$textbfFre$qu$textbfe$ncy truncationを用いて、ユニバーサル編集タスクのための$textbfDiff$usionモデルのガイダンスを洗練するために、新しいフリーアプローチを導入する。
本手法は,様々な編集タスクや多様な画像に対して,最先端の手法で比較結果を得る。
論文 参考訳(メタデータ) (2024-04-18T04:47:28Z) - Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models [18.75409092764653]
テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。
本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。
実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-03-17T06:19:30Z) - Doubly Abductive Counterfactual Inference for Text-based Image Editing [130.46583155383735]
本稿では,1つの画像のテキストベースの画像編集(TBIE)について,反事実推論を用いて検討する。
本稿では,DAC(Dububly Abductive Counterfactual Inference framework)を提案する。
我々のDACは編集性と忠実さのトレードオフをうまく達成しています。
論文 参考訳(メタデータ) (2024-03-05T13:59:21Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - SDEdit: Image Synthesis and Editing with Stochastic Differential
Equations [113.35735935347465]
微分方程式を用いた最近の生成モデルに基づく微分編集(SDEdit)を導入する。
ユーザが編集した入力画像が与えられたら、まずSDEに従って入力にノイズを付加し、その後、逆SDEをシミュレートして、その確率を前より徐々に増加させます。
GANインバージョンに基づく最近の画像編集手法において重要な要素であるタスク固有損失関数の設計は不要である。
論文 参考訳(メタデータ) (2021-08-02T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。