Fugu-MT 論文翻訳(概要): Block Cascading: Training Free Acceleration of Block-Causal Video Models

論文の概要: Block Cascading: Training Free Acceleration of Block-Causal Video Models

arxiv url: http://arxiv.org/abs/2511.20426v1
Date: Tue, 25 Nov 2025 15:52:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.535588
Title: Block Cascading: Training Free Acceleration of Block-Causal Video Models
Title（参考訳）: Block Cascading: ブロックカジュアルビデオモデルのフリーアクセラレーションのトレーニング
Authors: Hmrishav Bandyopadhyay, Nikhil Pinnaparaju, Rahim Entezari, Jim Scott, Yi-Zhe Song, Varun Jampani,
Abstract要約: 小さな1.3Bモデルは16FPSしか管理せず、大きな14Bモデルは4.5FPSでクロールする。 Block Cascadingは、トレーニング不要の並列化を通じて、このトレードオフを著しく軽減する。私たちの重要な洞察は、将来のビデオブロックは、生成を開始するために完全に識別された現在のブロックを必要としないということです。
参考スコア（独自算出の注目度）: 87.49370566105999
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Block-causal video generation faces a stark speed-quality trade-off: small 1.3B models manage only 16 FPS while large 14B models crawl at 4.5 FPS, forcing users to choose between responsiveness and quality. Block Cascading significantly mitigates this trade-off through training-free parallelization. Our key insight: future video blocks do not need fully denoised current blocks to begin generation. By starting block generation with partially denoised context from predecessors, we transform sequential pipelines into parallel cascades where multiple blocks denoise simultaneously. With 5 GPUs exploiting temporal parallelism, we achieve ~2x acceleration across all model scales: 1.3B models accelerate from 16 to 30 FPS, 14B models from 4.5 to 12.5 FPS. Beyond inference speed, Block Cascading eliminates overhead from KV-recaching (of ~200ms) during context switches for interactive generation. Extensive evaluations validated against multiple block-causal pipelines demonstrate no significant loss in generation quality when switching from block-causal to Block Cascading pipelines for inference. Project Page: https://hmrishavbandy.github.io/block_cascading_page/
Abstract（参考訳）: 小さな1.3Bモデルは16FPSしか管理せず、大きな14Bモデルは4.5FPSでクロールし、ユーザーは応答性と品質を選択せざるを得ない。 Block Cascadingは、トレーニング不要の並列化を通じて、このトレードオフを著しく軽減する。私たちの重要な洞察は、将来のビデオブロックは、生成を開始するために完全に識別された現在のブロックを必要としないということです。前者から部分的に分離されたコンテキストでブロック生成を開始することで、シーケンシャルパイプラインを並列カスケードに変換し、複数のブロックが同時にデノードする。 1.3Bモデルは16から30FPSまで、14Bモデルは4.5から12.5FPSまで加速します。推論速度の他に、Block Cascadingは、対話的な生成のためのコンテキストスイッチ中にKV再キャッシュ(約200ms)からオーバーヘッドを取り除く。複数のブロック因果パイプラインに対して検証された広範囲な評価は、推論のためにブロック因果パイプラインからブロック因果パイプラインに切り替える際に、生成品質が著しく低下しないことを示す。 Project Page: https://hmrishavbandy.github.io/block_cascading_page/

論文の概要: Block Cascading: Training Free Acceleration of Block-Causal Video Models

関連論文リスト