論文の概要: Streaming Video Diffusion: Online Video Editing with Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.19726v1
- Date: Thu, 30 May 2024 06:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 17:57:08.488210
- Title: Streaming Video Diffusion: Online Video Editing with Diffusion Models
- Title(参考訳): ビデオ拡散のストリーミング: 拡散モデルによるオンラインビデオ編集
- Authors: Feng Chen, Zhen Yang, Bohan Zhuang, Qi Wu,
- Abstract要約: 本稿では,時間的一貫性を維持しつつ,テキストストリームフレームを編集するオンラインビデオ編集という新しいタスクを提案する。
提案モデルでは,512×512の解像度で15.2FPSのリアルタイム推論速度を実現することにより,高画質動画の編集が可能となる。
- 参考スコア(独自算出の注目度): 30.55613486291111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel task called online video editing, which is designed to edit \textbf{streaming} frames while maintaining temporal consistency. Unlike existing offline video editing assuming all frames are pre-established and accessible, online video editing is tailored to real-life applications such as live streaming and online chat, requiring (1) fast continual step inference, (2) long-term temporal modeling, and (3) zero-shot video editing capability. To solve these issues, we propose Streaming Video Diffusion (SVDiff), which incorporates the compact spatial-aware temporal recurrence into off-the-shelf Stable Diffusion and is trained with the segment-level scheme on large-scale long videos. This simple yet effective setup allows us to obtain a single model that is capable of executing a broad range of videos and editing each streaming frame with temporal coherence. Our experiments indicate that our model can edit long, high-quality videos with remarkable results, achieving a real-time inference speed of 15.2 FPS at a resolution of 512x512.
- Abstract(参考訳): 本稿では,時間的一貫性を維持しつつ,フレームを編集するオンラインビデオ編集という新しいタスクを提案する。
既存のオフラインビデオ編集とは異なり、すべてのフレームが事前に確立されアクセス可能であると仮定すると、オンラインビデオ編集は、ライブストリーミングやオンラインチャットのような現実のアプリケーションに適合し、(1)高速連続的なステップ推論、(2)長期時間モデリング、(3)ゼロショットビデオ編集機能を必要とする。
これらの問題を解決するために,コンパクトな空間認識時相連続処理をオフザシェルフ安定拡散に組み込んだストリームビデオ拡散(SVDiff, Streaming Video Diffusion)を提案する。
このシンプルで効果的なセットアップにより、幅広いビデオを実行し、各ストリーミングフレームを時間的コヒーレンスで編集できる単一のモデルを得ることができる。
実験の結果,本モデルでは,高画質の長大な動画編集が可能であり,実時間推定速度は15.2 FPSで,解像度は512x512であることがわかった。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing [8.907836546058086]
既存のビデオ編集における画像生成モデルへのアプローチは、ワンショットの微調整、追加条件抽出、DDIMの逆変換といった時間を要する。
我々は、一貫性モデル(CM)にインスパイアされた効率的なゼロショットビデオ編集手法であるFastVideoEditを提案する。
本手法は,特別な分散スケジュールを用いて,ソース映像からターゲット映像への直接マッピングを可能にする。
論文 参考訳(メタデータ) (2024-03-10T17:12:01Z) - RealCraft: Attention Control as A Tool for Zero-Shot Consistent Video
Editing [10.356815854662862]
本研究では,ゼロショット映像編集のためのアテンション制御方式であるRealCraftを提案する。
新たな特徴注入にクロスアテンションを切り替え、編集対象の空間的注意を緩和することにより、局所的な形状の編集を実現する。
提案するゼロショットアテンション制御方式を,様々なビデオで紹介し,形状,時間一貫性,パラメータフリーな編集方法を示した。
論文 参考訳(メタデータ) (2023-12-19T22:33:42Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。