論文の概要: StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation
- arxiv url: http://arxiv.org/abs/2511.07399v1
- Date: Mon, 10 Nov 2025 18:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.42423
- Title: StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation
- Title(参考訳): StreamDiffusionV2: 動的・インタラクティブなビデオ生成のためのストリーミングシステム
- Authors: Tianrui Feng, Zhi Li, Shuo Yang, Haocheng Xi, Muyang Li, Xiuyu Li, Lvmin Zhang, Keting Yang, Kelly Peng, Song Han, Maneesh Agrawala, Kurt Keutzer, Akio Kodaira, Chenfeng Xu,
- Abstract要約: 生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
- 参考スコア(独自算出の注目度): 65.90400162290057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models are reshaping the live-streaming industry by redefining how content is created, styled, and delivered. Previous image-based streaming diffusion models have powered efficient and creative live streaming products but have hit limits on temporal consistency due to the foundation of image-based designs. Recent advances in video diffusion have markedly improved temporal consistency and sampling efficiency for offline generation. However, offline generation systems primarily optimize throughput by batching large workloads. In contrast, live online streaming operates under strict service-level objectives (SLOs): time-to-first-frame must be minimal, and every frame must meet a per-frame deadline with low jitter. Besides, scalable multi-GPU serving for real-time streams remains largely unresolved so far. To address this, we present StreamDiffusionV2, a training-free pipeline for interactive live streaming with video diffusion models. StreamDiffusionV2 integrates an SLO-aware batching scheduler and a block scheduler, together with a sink-token--guided rolling KV cache, a motion-aware noise controller, and other system-level optimizations. Moreover, we introduce a scalable pipeline orchestration that parallelizes the diffusion process across denoising steps and network layers, achieving near-linear FPS scaling without violating latency guarantees. The system scales seamlessly across heterogeneous GPU environments and supports flexible denoising steps (e.g., 1--4), enabling both ultra-low-latency and higher-quality modes. Without TensorRT or quantization, StreamDiffusionV2 renders the first frame within 0.5s and attains 58.28 FPS with a 14B-parameter model and 64.52 FPS with a 1.3B-parameter model on four H100 GPUs, making state-of-the-art generative live streaming practical and accessible--from individual creators to enterprise-scale platforms.
- Abstract(参考訳): 生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
これまでの画像ベースのストリーミング拡散モデルは、効率的でクリエイティブなライブストリーミング製品に力を入れてきたが、画像ベースの設計の基盤により、時間的一貫性に限界が及んだ。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
しかし、オフライン生成システムは大きなワークロードをバッチすることでスループットを最適化する。
対照的に、ライブオンラインストリーミングは厳格なサービスレベル目標(SLO)の下で動作します。
加えて、リアルタイムストリームのためのスケーラブルなマルチGPUサービスはこれまでほとんど未解決のままである。
これを解決するために,ビデオ拡散モデルを用いた対話型ライブストリーミングのためのトレーニング不要パイプラインStreamDiffusionV2を提案する。
StreamDiffusionV2は、SLO対応のバッチスケジューラとブロックスケジューラと、シンクトケン駆動のローリングKVキャッシュ、モーションアウェアノイズコントローラ、その他のシステムレベルの最適化を統合している。
さらに、ステップとネットワーク層をまたいだ拡散プロセスを並列化するスケーラブルなパイプラインオーケストレーションを導入し、レイテンシ保証に違反することなく、ニアリニアなFPSスケーリングを実現しています。
このシステムは異種GPU環境をシームレスにスケールし、フレキシブルなデノナイジングステップ(1--4など)をサポートし、超低レイテンシモードと高品質モードの両方を可能にする。
TensorRTや量子化がなければ、StreamDiffusionV2は0.5秒以内に最初のフレームをレンダリングし、14Bパラメータモデルで58.28 FPS、H100の4つのGPUで1.3Bパラメータモデルで64.52 FPSを達成した。
関連論文リスト
- Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - StreamDiT: Real-Time Streaming Text-to-Video Generation [40.441404889974294]
本稿では,ストリーミングビデオ生成モデルであるStreamDiTを提案する。
StreamDiTトレーニングは、移動バッファの追加によるフローマッチングに基づいている。
バッファリングフレームの異なるパーティショニング方式による混合トレーニングを設計し、コンテンツ一貫性と視覚的品質を両立させる。
我々のモデルは、ストリーミング生成、インタラクティブ生成、ビデオ・ツー・ビデオなどのリアルタイムアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-07-04T18:00:01Z) - LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models [17.858801012726445]
拡散に基づくモデルは、その卓越した表現力のために、仮想人間世代に広く採用されている。
本稿では,これらの課題に対処するための拡散モデルに基づく,新しいオーディオ駆動型ポートレートビデオ生成フレームワークを提案する。
本モデルでは,解像度384x384,解像度512x512で最大78FPS,ビデオ生成遅延140msと215msで最大78FPSを実現している。
論文 参考訳(メタデータ) (2025-06-06T07:09:07Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。