論文の概要: LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation
- arxiv url: http://arxiv.org/abs/2605.18739v2
- Date: Tue, 19 May 2026 17:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.649297
- Title: LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation
- Title(参考訳): LongLive-2.0:ロングビデオ生成のためのNVFP4並列インフラストラクチャ
- Authors: Yukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao, Qixin Hu, Shaoteng Liu, Yuyang Zhao, Huizi Mao, Ying-Cong Chen, Enze Xie, Xiaojuan Qi, Song Han,
- Abstract要約: LongLive-2.0は、長いビデオ生成の完全なトレーニングと推論ワークフロー全体を通じて、NVFP4ベースの並列インフラストラクチャである。
トレーニングには,quence-parallel autoregressive (AR) トレーニングを導入する。
実験ではトレーニングで2.15倍、推論で1.84倍のスピードアップを示す。
- 参考スコア(独自算出の注目度): 84.86814271505109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LongLive-2.0, an NVFP4-based parallel infrastructure throughout the full training and inference workflow of long video generation, addressing speed and memory bottlenecks. For training, we introduce sequence-parallel autoregressive (AR) training, instantiated as Balanced SP, which co-designs the efficient teacher-forcing layout with SP execution by pairing clean-history and noisy-target temporal chunks on each rank, enabling a natural teacher-forcing mask with SP-aware chunked VAE encoding. Combined with NVFP4 precision, it reduces GPU memory cost and accelerates GEMM computation during training, the proportion of which increases as video length grows. Moreover, we show that a high-quality infrastructure and dataset enable a remarkably clean training pipeline. Unlike existing Self-Forcing series methods that rely on ODE initialization and subsequent distribution matching distillation (DMD), LongLive-2.0 directly tunes a diffusion model into a long, multi-shot, interactive auto-regressive (AR) diffusion model. It can be further converted to real-time generation (4 to 2 denoising steps) with standalone LoRA weights. For inference on Blackwell GPUs, we enable W4A4 NVFP4 inference, quantize KV cache into NVFP4 for memory savings, and boost end-to-end throughput with asynchronous streaming VAE decoding. On non-Blackwell GPU architectures, we deploy SP inference to match the speed on Blackwell GPUs, while the quantized KV cache can lower inter-GPU communication of SP. Experiments show up to 2.15x speedup in training, and 1.84x in inference. LongLive-2.0-5B achieves 45.7 FPS inference while attaining strong performance on benchmarks. To our knowledge, LongLive-2.0 is the first NVFP4 training and inference system for long video generation.
- Abstract(参考訳): 我々は,NVFP4ベースの並列インフラストラクチャであるLongLive-2.0を紹介した。
トレーニングでは,各階層にクリーンヒストリーとノイズをターゲットとした時間的チャンクをペアにすることで,効率の良い教師強制レイアウトをSP実行と共同設計し,SP対応のチャンク付きVAE符号化を備えた自然な教師強制マスクを実現する。
NVFP4精度と組み合わせることで、GPUメモリコストを削減し、トレーニング中のGEMM計算を高速化する。
さらに,高品質なインフラストラクチャとデータセットによって,極めてクリーンなトレーニングパイプラインを実現することを示す。
ODEの初期化とその後の分散マッチング蒸留(DMD)に依存する既存のセルフフォース級数法とは異なり、LongLive-2.0は拡散モデルを複数ショットで対話的な自己回帰(AR)拡散モデルに直接チューニングする。
さらに、スタンドアロンのLoRA重みを持つリアルタイム世代(4段階から2段階)に変換することができる。
Blackwell GPUの推論には、W4A4 NVFP4推論を有効にし、メモリ保存のためにKVキャッシュをNVFP4に量子化し、非同期ストリーミングVAEデコーディングによるエンドツーエンドスループットを向上する。
非ブラックウェルGPUアーキテクチャでは,SP推論をブラックウェルGPUの速度に合わせるように展開する一方,量子化されたKVキャッシュはSPのGPU間通信を低減させる。
実験ではトレーニングで2.15倍、推論で1.84倍のスピードアップを示す。
LongLive-2.0-5Bは45.7 FPSの推論を達成し、ベンチマークで高いパフォーマンスを達成した。
我々の知る限り、LongLive-2.0は、ビデオ生成のための最初のNVFP4トレーニングおよび推論システムである。
関連論文リスト
- Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index [11.944339418621693]
因果自己回帰ビデオ生成パイプラインに対するシステムレベルの推論最適化を実装した。
5秒の480Pビデオでは、1.58倍のスピードアップが達成され、リアルタイムインタラクティブアプリケーションに対する効果的なサポートを提供する。
論文 参考訳(メタデータ) (2026-03-02T10:18:18Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling [18.079843329153412]
拡散トランス (DiT) ベースのモデルでは、マーク可能な能力が実証されている。
しかし、彼らの実践的なデプロイメントは、推論速度の遅いことと、メモリ消費の増大によって妨げられている。
ビデオ生成を高速化するために,PipeDiTという新しいパイプラインフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-15T06:46:40Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - Faster Multi-GPU Training with PPLL: A Pipeline Parallelism Framework Leveraging Local Learning [8.628231789161577]
本稿では,ローカル学習アルゴリズムを活用する新しいフレームワークPPLL(Pipeline Parallelism based on Local Learning)を提案する。
GPU間のデータ転送を管理するキューを利用することで、PPLLはシームレスなクロスGPU通信を保証する。
その結果,PPLLは従来のパイプライン並列処理と同等あるいはそれ以上の訓練速度を達成しつつ,局所的な学習手法の学習速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-19T08:09:18Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。