論文の概要: Exploring Optimal Latent Trajetory for Zero-shot Image Editing
- arxiv url: http://arxiv.org/abs/2501.03631v1
- Date: Tue, 07 Jan 2025 09:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 16:58:02.999698
- Title: Exploring Optimal Latent Trajetory for Zero-shot Image Editing
- Title(参考訳): ゼロショット画像編集のための最適遅延軌道探索
- Authors: Maomao Li, Yu Li, Yunfei Liu, Dong Xu,
- Abstract要約: 我々は、ほぼすべての構造的忠実性を失ったため、ガウス近辺のノイズをさらなる編集の要点として使うのは良い選択ではないと論じる。
本稿では,ZZEditという新しい編集パラダイムを提案する。
- 参考スコア(独自算出の注目度): 38.7483790652481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editability and fidelity are two essential demands for text-driven image editing, which expects that the editing area should align with the target prompt and the rest should remain unchanged separately. The current cutting-edge editing methods usually obey an "inversion-then-editing" pipeline, where the source image is first inverted to an approximate Gaussian noise ${z}_T$, based on which a sampling process is conducted using the target prompt. Nevertheless, we argue that it is not a good choice to use a near-Gaussian noise as a pivot for further editing since it almost lost all structure fidelity. We verify this by a pilot experiment, discovering that some intermediate-inverted latents can achieve a better trade-off between editability and fidelity than the fully-inverted ${z}_T$. Based on this, we propose a novel editing paradigm dubbed ZZEdit, which gentlely strengthens the target guidance on a sufficient-for-editing while structure-preserving latent. Specifically, we locate such an editing pivot by searching the first point on the inversion trajectory which has larger response levels toward the target prompt than the source one. Then, we propose a ZigZag process to perform mild target guiding on this pivot, which fulfills denoising and inversion iteratively, approaching the target while still holding fidelity. Afterwards, to achieve the same number of inversion and denoising steps, we perform a pure sampling process under the target prompt. Extensive experiments highlight the effectiveness of our ZZEdit in diverse image editing scenarios compared with the "inversion-then-editing" pipeline.
- Abstract(参考訳): 編集性と忠実性はテキスト駆動の画像編集に必須の2つの要件であり、編集領域はターゲットのプロンプトと一致すべきであり、残りは別途変更されなければならないと期待されている。
現在の最先端編集法は、通常「反転編集」パイプラインに従っており、ソース画像はまずターゲットプロンプトを用いてサンプリングプロセスを実行するガウスノイズ${z}_T$に逆変換される。
それでも我々は、ほぼすべての構造的忠実性を失ったため、ガウス近傍のノイズをさらなる編集の要点として使うのは良い選択ではないと論じている。
我々はこれをパイロット実験で検証し、一部の中間反転潜水剤が完全反転の${z}_T$よりも編集可能性と忠実さのトレードオフを得られることを発見した。
そこで本研究では,ZZEditという新たな編集パラダイムを提案する。
具体的には、ソースよりもターゲットへの応答レベルが大きい逆軌道上の第1点を探索することで、そのような編集のピボットを見つける。
そこで本研究では,このピボットを軽度に誘導するZigZagプロセスを提案する。
その後、インバージョンとデノベーションステップの同一数を達成するために、ターゲットプロンプトの下で純粋なサンプリング処理を行う。
大規模な実験では、さまざまな画像編集シナリオにおけるZZEditの有効性が、"インバージョン・then-editing"パイプラインと比較して強調されている。
関連論文リスト
- FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing [52.54102743380658]
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。
FlowDCは既存の方法に比べて優れた結果を示した。
論文 参考訳(メタデータ) (2025-12-12T09:08:39Z) - Group Relative Attention Guidance for Image Editing [38.299491082179905]
Group Relative Attention Guidance (GRAG) は、編集命令に対する入力画像に対するモデルの焦点を変調するシンプルで効果的な方法である。
私たちのコードはhttps://www.littlemisfit.com/little-misfit/GRAG-Image-Editing.comでリリースされます。
論文 参考訳(メタデータ) (2025-10-28T17:22:44Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文 参考訳(メタデータ) (2025-07-31T07:36:00Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing [43.97960454977206]
本稿では,フロートランスを用いた拡散インバージョンと分散制御について解析する。
本稿では,まず速度推定を洗練し,残り誤差を補償する2段階逆転法を提案する。
この機構は、剛性および非剛性操作を許容しながら、非ターゲット内容の同時保存を可能にする。
論文 参考訳(メタデータ) (2024-11-24T13:48:16Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models [44.26371926512843]
我々は、プログレッシブな$textbfFre$qu$textbfe$ncy truncationを用いて、ユニバーサル編集タスクのための$textbfDiff$usionモデルのガイダンスを洗練するために、新しいフリーアプローチを導入する。
本手法は,様々な編集タスクや多様な画像に対して,最先端の手法で比較結果を得る。
論文 参考訳(メタデータ) (2024-04-18T04:47:28Z) - Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models [18.75409092764653]
テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。
本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。
実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-03-17T06:19:30Z) - Doubly Abductive Counterfactual Inference for Text-based Image Editing [130.46583155383735]
本稿では,1つの画像のテキストベースの画像編集(TBIE)について,反事実推論を用いて検討する。
本稿では,DAC(Dububly Abductive Counterfactual Inference framework)を提案する。
我々のDACは編集性と忠実さのトレードオフをうまく達成しています。
論文 参考訳(メタデータ) (2024-03-05T13:59:21Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。
低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。
高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:23:48Z) - SDEdit: Image Synthesis and Editing with Stochastic Differential
Equations [113.35735935347465]
微分方程式を用いた最近の生成モデルに基づく微分編集(SDEdit)を導入する。
ユーザが編集した入力画像が与えられたら、まずSDEに従って入力にノイズを付加し、その後、逆SDEをシミュレートして、その確率を前より徐々に増加させます。
GANインバージョンに基づく最近の画像編集手法において重要な要素であるタスク固有損失関数の設計は不要である。
論文 参考訳(メタデータ) (2021-08-02T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。