論文の概要: Consistent Video Editing as Flow-Driven Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2506.07713v1
- Date: Mon, 09 Jun 2025 12:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.954188
- Title: Consistent Video Editing as Flow-Driven Image-to-Video Generation
- Title(参考訳): フロー駆動型イメージ・ツー・ビデオ生成のための一貫性ビデオ編集
- Authors: Ge Wang, Songlin Fan, Hangxu Liu, Quanjian Song, Hewei Wang, Jinfeng Xu,
- Abstract要約: FlowV2Vはパイプライン全体を1フレームの編集と条件付きI2V生成に分解し、変形した形状に整合した擬似フローシーケンスをシミュレートする。
DAVIS-EDITによるDOVERの13.67%と50.66%の改善とワープエラーによる実験の結果は、既存の最先端のものと比較して、FlowV2Vの時間的一貫性とサンプル品質が優れていることを示している。
- 参考スコア(独自算出の注目度): 6.03121849763522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prosper of video diffusion models, down-stream applications like video editing have been significantly promoted without consuming much computational cost. One particular challenge in this task lies at the motion transfer process from the source video to the edited one, where it requires the consideration of the shape deformation in between, meanwhile maintaining the temporal consistency in the generated video sequence. However, existing methods fail to model complicated motion patterns for video editing, and are fundamentally limited to object replacement, where tasks with non-rigid object motions like multi-object and portrait editing are largely neglected. In this paper, we observe that optical flows offer a promising alternative in complex motion modeling, and present FlowV2V to re-investigate video editing as a task of flow-driven Image-to-Video (I2V) generation. Specifically, FlowV2V decomposes the entire pipeline into first-frame editing and conditional I2V generation, and simulates pseudo flow sequence that aligns with the deformed shape, thus ensuring the consistency during editing. Experimental results on DAVIS-EDIT with improvements of 13.67% and 50.66% on DOVER and warping error illustrate the superior temporal consistency and sample quality of FlowV2V compared to existing state-of-the-art ones. Furthermore, we conduct comprehensive ablation studies to analyze the internal functionalities of the first-frame paradigm and flow alignment in the proposed method.
- Abstract(参考訳): ビデオ拡散モデルの普及により、ビデオ編集のようなダウンストリームアプリケーションは、計算コストをあまり消費することなく大幅に向上した。
このタスクで特に課題となるのは、ソースビデオから編集されたビデオへの動画転送プロセスであり、生成したビデオシーケンスの時間的一貫性を維持しながら、その間の形状の変形を考慮する必要がある。
しかし、既存の手法では複雑な動画編集の動作パターンをモデル化できず、基本的にはオブジェクト置換に限られており、マルチオブジェクトやポートレート編集のような非厳密なオブジェクトの動きを持つタスクはほとんど無視されている。
本稿では、複雑なモーションモデリングにおいて光フローが有望な代替手段となることを観察し、フロー駆動型イメージ・トゥ・ビデオ(I2V)生成のタスクとして、ビデオ編集を再検討するFlowV2Vを提案する。
具体的には、FlowV2Vはパイプライン全体を1フレームの編集と条件付きI2V生成に分解し、変形した形状に整合した擬似フローシーケンスをシミュレートすることで、編集時の一貫性を確保する。
DAVIS-EDITによるDOVERの13.67%と50.66%の改善とワープエラーによる実験の結果は、既存の最先端のものと比較して、FlowV2Vの時間的一貫性とサンプル品質が優れていることを示している。
さらに,本手法では,第1フレームのパラダイムの内部機能とフローアライメントを分析するために,包括的アブレーション研究を実施している。
関連論文リスト
- VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。
本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。
実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T16:56:53Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video
Synthesis [66.2611385251157]
拡散モデルはイメージ・ツー・イメージ(I2I)合成を変換し、現在はビデオに浸透している。
本稿では,空間条件と時間的光フロー手がかりを併用した一貫したV2V合成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-29T16:57:12Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。