論文の概要: FADE: Frequency-Aware Diffusion Model Factorization for Video Editing
- arxiv url: http://arxiv.org/abs/2506.05934v1
- Date: Fri, 06 Jun 2025 10:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.41317
- Title: FADE: Frequency-Aware Diffusion Model Factorization for Video Editing
- Title(参考訳): FADE: ビデオ編集のための周波数対応拡散モデル因子化
- Authors: Yixuan Zhu, Haolin Wang, Shilin Ma, Wenliang Zhao, Yansong Tang, Lei Chen, Jie Zhou,
- Abstract要約: FADEはトレーニングなしだが、非常に効果的なビデオ編集手法である。
本稿では,各コンポーネントの役割を最適化するための因子化戦略を提案する。
実世界のビデオ実験により,我々の手法は高品質で現実的で時間的に整合した編集結果を一貫して提供することを示した。
- 参考スコア(独自算出の注目度): 34.887298437323295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in diffusion frameworks have significantly enhanced video editing, achieving high fidelity and strong alignment with textual prompts. However, conventional approaches using image diffusion models fall short in handling video dynamics, particularly for challenging temporal edits like motion adjustments. While current video diffusion models produce high-quality results, adapting them for efficient editing remains difficult due to the heavy computational demands that prevent the direct application of previous image editing techniques. To overcome these limitations, we introduce FADE, a training-free yet highly effective video editing approach that fully leverages the inherent priors from pre-trained video diffusion models via frequency-aware factorization. Rather than simply using these models, we first analyze the attention patterns within the video model to reveal how video priors are distributed across different components. Building on these insights, we propose a factorization strategy to optimize each component's specialized role. Furthermore, we devise spectrum-guided modulation to refine the sampling trajectory with frequency domain cues, preventing information leakage and supporting efficient, versatile edits while preserving the basic spatial and temporal structure. Extensive experiments on real-world videos demonstrate that our method consistently delivers high-quality, realistic and temporally coherent editing results both qualitatively and quantitatively. Code is available at https://github.com/EternalEvan/FADE .
- Abstract(参考訳): 拡散フレームワークの最近の進歩は、ビデオ編集を著しく向上させ、高い忠実度とテキストプロンプトとの強い整合性を実現している。
しかし、従来の画像拡散モデルを用いたアプローチは、特にモーション調整のような時間的編集に難色を呈する。
現在のビデオ拡散モデルは高品質な結果をもたらすが、従来の画像編集技術の直接適用を防ぎ、計算負荷が重いため、効率的な編集に適応することは依然として困難である。
これらの制限を克服するために、周波数認識因子化による事前学習ビデオ拡散モデルから生来の先入観をフル活用する、トレーニング不要で高効率なビデオ編集手法であるFADEを導入する。
単にこれらのモデルを使用するのではなく、まずビデオモデル内の注意パターンを分析して、ビデオの事前分布を異なるコンポーネントに分散させる方法を明らかにする。
これらの知見に基づいて,各コンポーネントの役割を最適化するための因子化戦略を提案する。
さらに、スペクトル誘導変調を考案し、サンプリング軌道を周波数領域のキューで洗練し、情報漏洩を防止し、基本空間構造と時間構造を保ちながら効率的な多目的編集を支援する。
実世界のビデオに対する大規模な実験により、我々の手法は質的にも定量的にも、高品質で、現実的で、時間的に一貫した編集結果を一貫して提供することを示した。
コードはhttps://github.com/EternalEvan/FADE で公開されている。
関連論文リスト
- Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing [3.6344789837383145]
我々は,高品質な自然な標準画像を生成する前に,ハイブリッドな変形場と拡散を統合したビデオ編集フレームワークであるNaRCanを提案する。
提案手法は,グローバルな動きをモデル化するためにホモグラフィを使用し,局所的な残留変形を捉えるために多層パーセプトロン(MLP)を用いる。
提案手法は,様々なビデオ編集タスクにおいて既存の手法よりも優れ,一貫性と高品質な編集ビデオシーケンスを生成する。
論文 参考訳(メタデータ) (2024-06-10T17:59:46Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。