論文の概要: DFVEdit: Conditional Delta Flow Vector for Zero-shot Video Editing
- arxiv url: http://arxiv.org/abs/2506.20967v1
- Date: Thu, 26 Jun 2025 03:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.95548
- Title: DFVEdit: Conditional Delta Flow Vector for Zero-shot Video Editing
- Title(参考訳): DFVEdit:ゼロショットビデオ編集のための条件付きデルタフローベクトル
- Authors: Lingling Cai, Kang Zhao, Hangjie Yuan, Xiang Wang, Yingya Zhang, Kejie Huang,
- Abstract要約: DFVEditは,ビデオDiTに適した効率的なゼロショットビデオ編集手法である。
DFVEditは、フロー変換を介してクリーンな潜水器を直接操作することで、注意修正と微調整の両方を不要にする。
DFVEditは、ビデオDiTの少なくとも20倍の速度アップと85%のメモリ削減を提供する。
- 参考スコア(独自算出の注目度): 18.86599058385878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Video Diffusion Transformers (Video DiTs) marks a milestone in video generation. However, directly applying existing video editing methods to Video DiTs often incurs substantial computational overhead, due to resource-intensive attention modification or finetuning. To alleviate this problem, we present DFVEdit, an efficient zero-shot video editing method tailored for Video DiTs. DFVEdit eliminates the need for both attention modification and fine-tuning by directly operating on clean latents via flow transformation. To be more specific, we observe that editing and sampling can be unified under the continuous flow perspective. Building upon this foundation, we propose the Conditional Delta Flow Vector (CDFV) -- a theoretically unbiased estimation of DFV -- and integrate Implicit Cross Attention (ICA) guidance as well as Embedding Reinforcement (ER) to further enhance editing quality. DFVEdit excels in practical efficiency, offering at least 20x inference speed-up and 85\% memory reduction on Video DiTs compared to attention-engineering-based editing methods. Extensive quantitative and qualitative experiments demonstrate that DFVEdit can be seamlessly applied to popular Video DiTs (e.g., CogVideoX and Wan2.1), attaining state-of-the-art performance on structural fidelity, spatial-temporal consistency, and editing quality.
- Abstract(参考訳): ビデオ拡散変換器(Video Diffusion Transformers, Video DiTs)の出現は、ビデオ生成におけるマイルストーンである。
しかし、既存のビデオ編集手法をビデオDiTに直接適用すると、リソース集約的な注意修正や微調整のため、かなりの計算オーバーヘッドが発生することが多い。
この問題を軽減するため,ビデオDiTに適した効率的なゼロショットビデオ編集手法であるDFVEditを提案する。
DFVEditは、フロー変換を介してクリーンな潜水器を直接操作することで、注意修正と微調整の両方を不要にする。
より具体的には、連続フローの観点で編集とサンプリングを統一することができることを観察する。
本研究は,条件付きデルタフローベクトル(CDFV, Conditional Delta Flow Vector)というDFVの理論的に偏りのない推定手法を提案し,Implicit Cross Attention(ICA)ガイダンスとEmbedding Reinforcement(ER)を統合して編集品質の向上を図る。
DFVEditは、注意工学ベースの編集方法と比較して、少なくとも20倍の推論スピードアップと85倍のメモリ削減を実現している。
DFVEditが一般的なビデオDiT(例えば、CogVideoX、Wan2.1)にシームレスに適用可能であることを示し、構造的忠実さ、空間的整合性、編集品質について最先端のパフォーマンスを実現する。
関連論文リスト
- Consistent Video Editing as Flow-Driven Image-to-Video Generation [6.03121849763522]
FlowV2Vはパイプライン全体を1フレームの編集と条件付きI2V生成に分解し、変形した形状に整合した擬似フローシーケンスをシミュレートする。
DAVIS-EDITによるDOVERの13.67%と50.66%の改善とワープエラーによる実験の結果は、既存の最先端のものと比較して、FlowV2Vの時間的一貫性とサンプル品質が優れていることを示している。
論文 参考訳(メタデータ) (2025-06-09T12:57:30Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models [66.12367865049572]
遅延拡散モデル(LDM)は、画像合成やビデオ合成において強力な能力を持つことで有名である。
本稿では,T2I と T2V LDM を統合し,高品質なテキスト・ツー・ビデオ(T2V)編集を実現するフレームワークであるFLDMを提案する。
本稿では,T2I と T2V の LDM が,構造的・時間的整合性において相互に補完可能であることを初めて明らかにする。
論文 参考訳(メタデータ) (2023-10-25T06:35:01Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。