論文の概要: Block Cascading: Training Free Acceleration of Block-Causal Video Models
- arxiv url: http://arxiv.org/abs/2511.20426v1
- Date: Tue, 25 Nov 2025 15:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.535588
- Title: Block Cascading: Training Free Acceleration of Block-Causal Video Models
- Title(参考訳): Block Cascading: ブロックカジュアルビデオモデルのフリーアクセラレーションのトレーニング
- Authors: Hmrishav Bandyopadhyay, Nikhil Pinnaparaju, Rahim Entezari, Jim Scott, Yi-Zhe Song, Varun Jampani,
- Abstract要約: 小さな1.3Bモデルは16FPSしか管理せず、大きな14Bモデルは4.5FPSでクロールする。
Block Cascadingは、トレーニング不要の並列化を通じて、このトレードオフを著しく軽減する。
私たちの重要な洞察は、将来のビデオブロックは、生成を開始するために完全に識別された現在のブロックを必要としないということです。
- 参考スコア(独自算出の注目度): 87.49370566105999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block-causal video generation faces a stark speed-quality trade-off: small 1.3B models manage only 16 FPS while large 14B models crawl at 4.5 FPS, forcing users to choose between responsiveness and quality. Block Cascading significantly mitigates this trade-off through training-free parallelization. Our key insight: future video blocks do not need fully denoised current blocks to begin generation. By starting block generation with partially denoised context from predecessors, we transform sequential pipelines into parallel cascades where multiple blocks denoise simultaneously. With 5 GPUs exploiting temporal parallelism, we achieve ~2x acceleration across all model scales: 1.3B models accelerate from 16 to 30 FPS, 14B models from 4.5 to 12.5 FPS. Beyond inference speed, Block Cascading eliminates overhead from KV-recaching (of ~200ms) during context switches for interactive generation. Extensive evaluations validated against multiple block-causal pipelines demonstrate no significant loss in generation quality when switching from block-causal to Block Cascading pipelines for inference. Project Page: https://hmrishavbandy.github.io/block_cascading_page/
- Abstract(参考訳): 小さな1.3Bモデルは16FPSしか管理せず、大きな14Bモデルは4.5FPSでクロールし、ユーザーは応答性と品質を選択せざるを得ない。
Block Cascadingは、トレーニング不要の並列化を通じて、このトレードオフを著しく軽減する。
私たちの重要な洞察は、将来のビデオブロックは、生成を開始するために完全に識別された現在のブロックを必要としないということです。
前者から部分的に分離されたコンテキストでブロック生成を開始することで、シーケンシャルパイプラインを並列カスケードに変換し、複数のブロックが同時にデノードする。
1.3Bモデルは16から30FPSまで、14Bモデルは4.5から12.5FPSまで加速します。
推論速度の他に、Block Cascadingは、対話的な生成のためのコンテキストスイッチ中にKV再キャッシュ(約200ms)からオーバーヘッドを取り除く。
複数のブロック因果パイプラインに対して検証された広範囲な評価は、推論のためにブロック因果パイプラインからブロック因果パイプラインに切り替える際に、生成品質が著しく低下しないことを示す。
Project Page: https://hmrishavbandy.github.io/block_cascading_page/
関連論文リスト
- Helios: Real Real-Time Long Video Generation Model [33.34372252025333]
Heliosは、T2V、I2V、V2Vタスクをサポートする統一された入力表現を備えた14B自己回帰拡散モデルである。
Heliosは、ショートビデオとロングビデオの両方で先行手法より一貫して優れている。
コミュニティによるさらなる開発を支援するため、コード、ベースモデル、蒸留モデルをリリースする予定です。
論文 参考訳(メタデータ) (2026-03-04T18:45:21Z) - FlashBlock: Attention Caching for Efficient Long-Context Block Diffusion [51.1618564189244]
FlashBlockは、安定したアテンション出力を再利用し、拡散プロセスを変更することなくアテンション計算とKVキャッシュアクセスを減らす、キャッシュされたブロック外部アテンションメカニズムである。
拡散言語モデルとビデオ生成の実験では、1.44$times$高いトークンスループットと1.6$times$の注意時間を短縮し、生成品質に無視できない影響を与えている。
論文 参考訳(メタデータ) (2026-02-05T04:57:21Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching [6.354675628412448]
Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。
いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
論文 参考訳(メタデータ) (2025-09-17T07:58:36Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。
NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。
本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文 参考訳(メタデータ) (2025-02-11T17:57:53Z) - Efficient Motion Modelling with Variable-sized blocks from Hierarchical
Cuboidal Partitioning [24.100530697346155]
ブロックベースアーキテクチャを用いたモーションモデリングは、フレームを独立して補償される固定サイズのブロックに分割するビデオ符号化において広く用いられている。
我々は、スケーラブルなビデオ符号化に使用される固定サイズのブロックに対して、動きモデリングにおける立方体の可能性について検討した。
論文 参考訳(メタデータ) (2022-08-28T04:13:58Z) - 1$\ imes$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。