論文の概要: Block Cascading: Training Free Acceleration of Block-Causal Video Models
- arxiv url: http://arxiv.org/abs/2511.20426v1
- Date: Tue, 25 Nov 2025 15:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.535588
- Title: Block Cascading: Training Free Acceleration of Block-Causal Video Models
- Title(参考訳): Block Cascading: ブロックカジュアルビデオモデルのフリーアクセラレーションのトレーニング
- Authors: Hmrishav Bandyopadhyay, Nikhil Pinnaparaju, Rahim Entezari, Jim Scott, Yi-Zhe Song, Varun Jampani,
- Abstract要約: 小さな1.3Bモデルは16FPSしか管理せず、大きな14Bモデルは4.5FPSでクロールする。
Block Cascadingは、トレーニング不要の並列化を通じて、このトレードオフを著しく軽減する。
私たちの重要な洞察は、将来のビデオブロックは、生成を開始するために完全に識別された現在のブロックを必要としないということです。
- 参考スコア(独自算出の注目度): 87.49370566105999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block-causal video generation faces a stark speed-quality trade-off: small 1.3B models manage only 16 FPS while large 14B models crawl at 4.5 FPS, forcing users to choose between responsiveness and quality. Block Cascading significantly mitigates this trade-off through training-free parallelization. Our key insight: future video blocks do not need fully denoised current blocks to begin generation. By starting block generation with partially denoised context from predecessors, we transform sequential pipelines into parallel cascades where multiple blocks denoise simultaneously. With 5 GPUs exploiting temporal parallelism, we achieve ~2x acceleration across all model scales: 1.3B models accelerate from 16 to 30 FPS, 14B models from 4.5 to 12.5 FPS. Beyond inference speed, Block Cascading eliminates overhead from KV-recaching (of ~200ms) during context switches for interactive generation. Extensive evaluations validated against multiple block-causal pipelines demonstrate no significant loss in generation quality when switching from block-causal to Block Cascading pipelines for inference. Project Page: https://hmrishavbandy.github.io/block_cascading_page/
- Abstract(参考訳): 小さな1.3Bモデルは16FPSしか管理せず、大きな14Bモデルは4.5FPSでクロールし、ユーザーは応答性と品質を選択せざるを得ない。
Block Cascadingは、トレーニング不要の並列化を通じて、このトレードオフを著しく軽減する。
私たちの重要な洞察は、将来のビデオブロックは、生成を開始するために完全に識別された現在のブロックを必要としないということです。
前者から部分的に分離されたコンテキストでブロック生成を開始することで、シーケンシャルパイプラインを並列カスケードに変換し、複数のブロックが同時にデノードする。
1.3Bモデルは16から30FPSまで、14Bモデルは4.5から12.5FPSまで加速します。
推論速度の他に、Block Cascadingは、対話的な生成のためのコンテキストスイッチ中にKV再キャッシュ(約200ms)からオーバーヘッドを取り除く。
複数のブロック因果パイプラインに対して検証された広範囲な評価は、推論のためにブロック因果パイプラインからブロック因果パイプラインに切り替える際に、生成品質が著しく低下しないことを示す。
Project Page: https://hmrishavbandy.github.io/block_cascading_page/
関連論文リスト
- StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching [6.354675628412448]
Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。
いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
論文 参考訳(メタデータ) (2025-09-17T07:58:36Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。
NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。
本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文 参考訳(メタデータ) (2025-02-11T17:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。