論文の概要: StreamingEffect: Real-Time Human-Centric Video Effect Generation
- arxiv url: http://arxiv.org/abs/2605.17019v1
- Date: Sat, 16 May 2026 14:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.494332
- Title: StreamingEffect: Real-Time Human-Centric Video Effect Generation
- Title(参考訳): StreamingEffect: リアルタイムな人間中心ビデオエフェクト生成
- Authors: Yiren Song, Cheng Liu, Yuxin Jiang, Mike Zheng Shou,
- Abstract要約: textbfStreamingEffectは、リアルタイムな人間中心のストリーミングビデオエフェクトフレームワークである。
提案手法は,H200 GPUでリアルタイムで高品質な720pビデオ編集を可能にする。
- 参考スコア(独自算出の注目度): 63.354447770285894
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Streaming video effect generation is highly desirable for live human-centric applications such as e-commerce streaming, entertainment, and vlogging, yet remains difficult due to the lack of suitable data and deployable editing models. Unlike generic video generation, this task requires real-time video-to-video editing that adds expressive effects while preserving human identity, background content, and temporal consistency. Existing acceleration efforts mainly focus on text-to-video generation, while efficient distillation for video editing remains largely underexplored. In this paper, we present \textbf{StreamingEffect}, a real-time human-centric streaming video effect framework. We adopt an in-context video editing architecture and train a high-quality bidirectional teacher, then distill it into a causal autoregressive student and further reduce sampling from 50 steps to 4 steps. We also introduce keyframe control, allowing reference effect frames to be injected online and propagated through the stream for interactive editing. To address the data bottleneck, we construct \textbf{VideoEffect-130K}, to our knowledge the largest human-centric video effect dataset, containing 70K effect videos and 60K editing videos across 600 effect categories curated from short-video and editing platforms. Experiments show that our method enables real-time, high-quality 720p video editing on a single H200 GPU.
- Abstract(参考訳): ストリーミングビデオエフェクト生成は、eコマースストリーミング、エンターテイメント、ブログなど、人間中心のライブアプリケーションにとって非常に望ましいが、適切なデータやデプロイ可能な編集モデルがないため、依然として困難である。
一般的なビデオ生成とは異なり、このタスクには、人間のアイデンティティ、バックグラウンドコンテンツ、時間的一貫性を保ちながら、表現的な効果を付加するリアルタイムビデオ編集が必要である。
既存のアクセラレーションの取り組みは主にテキスト・ビデオ生成に重点を置いているが、ビデオ編集のための効率的な蒸留はいまだに未検討である。
本稿では,リアルタイムな人間中心のストリーミング・エフェクト・フレームワークである「textbf{StreamingEffect}」を提案する。
我々は、文脈内ビデオ編集アーキテクチャを採用し、高品質な双方向教師を訓練し、それを因果的自己回帰的な学生に蒸留し、さらに50ステップから4ステップのサンプリングを減らす。
また、キーフレーム制御を導入し、参照エフェクトフレームをオンラインに注入し、ストリームを通じて伝播してインタラクティブな編集を行う。
データボトルネックに対処するため、短ビデオと編集プラットフォームから収集した600のエフェクトカテゴリにわたる70Kエフェクトビデオと60Kエフェクトビデオを含む、最大の人間中心のビデオエフェクトデータセットを知識として、‘textbf{VideoEffect-130K} を構築した。
実験により,H200 GPUでリアルタイムで高品質な720pビデオ編集が可能であることが確認された。
関連論文リスト
- MotionV2V: Editing Motion in a Video [53.791975554391534]
入力から抽出したスパーストラジェクトリを編集し,映像の動きを変化させることを提案する。
入力と出力の軌跡のずれを「運動編集」と呼ぶ。
私たちのアプローチでは、任意のタイムスタンプから始まり、自然に伝播する編集が可能になります。
論文 参考訳(メタデータ) (2025-11-25T18:57:25Z) - Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists [17.451911831989293]
高品質なビデオ編集データセットであるSenorita-2Mを紹介する。
高品質で特殊な4つのビデオ編集モデルを構築することで構築される。
編集が不十分なビデオペアを除去するためのフィルタリングパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-10T17:58:22Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - Hashing Neural Video Decomposition with Multiplicative Residuals in
Space-Time [14.015909536844337]
本稿では,時間的に異なる照明効果を持つ映像の階層的編集を容易にする映像分解手法を提案する。
本手法は,座標ハッシュを用いて1フレームあたり25秒で1080pビデオの層ベースニューラル表現を効率よく学習する。
本稿では,映像編集の一貫性を客観的に評価するための評価指標を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:36:14Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。