論文の概要: Schedule Your Edit: A Simple yet Effective Diffusion Noise Schedule for Image Editing
- arxiv url: http://arxiv.org/abs/2410.18756v3
- Date: Mon, 28 Oct 2024 06:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:23:08.733863
- Title: Schedule Your Edit: A Simple yet Effective Diffusion Noise Schedule for Image Editing
- Title(参考訳): 編集のスケジュール:画像編集のためのシンプルで効果的な拡散ノイズスケジュール
- Authors: Haonan Lin, Mengmeng Wang, Jiahao Wang, Wenbin An, Yan Chen, Yong Liu, Feng Tian, Guang Dai, Jingdong Wang, Qianying Wang,
- Abstract要約: 効率的な編集では、ソースイメージを潜在空間に反転させる必要があり、このプロセスはDDIMの反転に固有の予測エラーによってしばしば妨げられる。
特異性を排除し、インバージョン安定性を改善し、画像編集のためのより良いノイズ空間を提供する新しいノイズスケジュールであるロジスティックスケジュールを導入する。
提案手法では追加のトレーニングは必要とせず,既存の編集手法と互換性がある。
- 参考スコア(独自算出の注目度): 42.45138713525929
- License:
- Abstract: Text-guided diffusion models have significantly advanced image editing, enabling high-quality and diverse modifications driven by text prompts. However, effective editing requires inverting the source image into a latent space, a process often hindered by prediction errors inherent in DDIM inversion. These errors accumulate during the diffusion process, resulting in inferior content preservation and edit fidelity, especially with conditional inputs. We address these challenges by investigating the primary contributors to error accumulation in DDIM inversion and identify the singularity problem in traditional noise schedules as a key issue. To resolve this, we introduce the Logistic Schedule, a novel noise schedule designed to eliminate singularities, improve inversion stability, and provide a better noise space for image editing. This schedule reduces noise prediction errors, enabling more faithful editing that preserves the original content of the source image. Our approach requires no additional retraining and is compatible with various existing editing methods. Experiments across eight editing tasks demonstrate the Logistic Schedule's superior performance in content preservation and edit fidelity compared to traditional noise schedules, highlighting its adaptability and effectiveness.
- Abstract(参考訳): テキスト誘導拡散モデルは画像編集が大幅に進歩し、テキストプロンプトによって駆動される高品質で多様な修正を可能にする。
しかし、効果的な編集では、ソースイメージを潜時空間に反転させる必要があり、DDIMの反転に固有の予測エラーによってしばしば妨げられる。
これらのエラーは拡散過程中に蓄積され、特に条件入力でコンテンツ保存や編集の精度が低下する。
本稿では,DDIMのインバージョンにおける誤り蓄積の主要因について検討し,従来のノイズスケジュールにおける特異性問題を重要課題として挙げる。
これを解決するために,特異性を排除し,インバージョン安定性を向上し,画像編集に優れたノイズ空間を提供する新しいノイズスケジュールであるロジスティックスケジュールを導入する。
このスケジュールはノイズ予測誤差を低減し、元の画像のオリジナルコンテンツを保存したより忠実な編集を可能にする。
提案手法では,追加のリトレーニングは必要とせず,既存の編集手法と互換性がある。
8つの編集タスクにまたがる実験では、ロジスティック・スケジュールは従来のノイズスケジュールと比較してコンテンツ保存と編集の忠実さにおいて優れた性能を示し、適応性と有効性を強調している。
関連論文リスト
- Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野では例外的な性能を示した。
その堅牢な生成能力にもかかわらず、これらのモデルはしばしば不正確な逆転に悩まされ、画像やビデオ編集などの下流タスクにおける有効性を制限できる。
本稿では,修正フローODEの解法における誤差を低減し,インバージョン精度を向上させる新しいトレーニングフリーサンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models [44.26371926512843]
我々は、プログレッシブな$textbfFre$qu$textbfe$ncy truncationを用いて、ユニバーサル編集タスクのための$textbfDiff$usionモデルのガイダンスを洗練するために、新しいフリーアプローチを導入する。
本手法は,様々な編集タスクや多様な画像に対して,最先端の手法で比較結果を得る。
論文 参考訳(メタデータ) (2024-04-18T04:47:28Z) - Noise Map Guidance: Inversion with Spatial Context for Real Image
Editing [23.513950664274997]
テキスト誘導拡散モデルは画像合成において一般的なツールとなり、高品質で多様な画像を生成することで知られている。
実際の画像の編集への応用は、復元品質を劣化させ、その後編集の忠実度に影響を及ぼすため、しばしばハードルに直面する。
実画像編集に適した空間文脈に富んだ逆解析手法であるノイズマップガイダンス(NMG)を提案する。
論文 参考訳(メタデータ) (2024-02-07T07:16:12Z) - High-Fidelity Diffusion-based Image Editing [19.85446433564999]
拡散モデルの編集性能は、デノナイジングステップが増加しても、もはや満足できない傾向にある。
本稿では,マルコフ加群が残差特徴を持つ拡散モデル重みを変調するために組み込まれている革新的なフレームワークを提案する。
本稿では,編集過程における誤り伝播の最小化を目的とした新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-25T12:12:36Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。