論文の概要: BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
- arxiv url: http://arxiv.org/abs/2511.22973v1
- Date: Fri, 28 Nov 2025 08:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.819407
- Title: BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
- Title(参考訳): BlockVid: 高品質で一貫した分長ビデオ生成のためのブロック拡散
- Authors: Zeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang,
- Abstract要約: BlockVidは、セマンティックなスパースKVキャッシュを備えた、新しいブロック拡散フレームワークである。
LV-Benchは、遠距離コヒーレンスを評価する新しいメトリクスを備えた、微小ビデオのためのきめ細かいベンチマークである。
- 参考スコア(独自算出の注目度): 44.45173635133032
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating minute-long videos is a critical step toward developing world models, providing a foundation for realistic extended scenes and advanced AI simulators. The emerging semi-autoregressive (block diffusion) paradigm integrates the strengths of diffusion and autoregressive models, enabling arbitrary-length video generation and improving inference efficiency through KV caching and parallel sampling. However, it yet faces two enduring challenges: (i) KV-cache-induced long-horizon error accumulation, and (ii) the lack of fine-grained long-video benchmarks and coherence-aware metrics. To overcome these limitations, we propose BlockVid, a novel block diffusion framework equipped with semantic-aware sparse KV cache, an effective training strategy called Block Forcing, and dedicated chunk-wise noise scheduling and shuffling to reduce error propagation and enhance temporal consistency. We further introduce LV-Bench, a fine-grained benchmark for minute-long videos, complete with new metrics evaluating long-range coherence. Extensive experiments on VBench and LV-Bench demonstrate that BlockVid consistently outperforms existing methods in generating high-quality, coherent minute-long videos. In particular, it achieves a 22.2% improvement on VDE Subject and a 19.4% improvement on VDE Clarity in LV-Bench over the state of the art approaches. Project website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.
- Abstract(参考訳): 数分のビデオを生成することは、世界モデルを開発するための重要なステップであり、現実的な拡張シーンと高度なAIシミュレータの基礎を提供する。
新たな半自己回帰的(ブロック拡散)パラダイムは、拡散と自己回帰モデルの強みを統合し、任意の長さのビデオ生成を可能にし、KVキャッシングと並列サンプリングによる推論効率を向上させる。
しかし、それはまだ2つの永続的な課題に直面している。
(i)KV-cacheにより引き起こされる長水平誤差蓄積、及び
(II)詳細なロングビデオベンチマークとコヒーレンス対応メトリクスの欠如。
これらの制限を克服するために,意味認識型スパースKVキャッシュを備えたブロック拡散フレームワークであるBlockVidと,Block Forcingと呼ばれる効果的なトレーニング戦略と,エラー伝搬の低減と時間的一貫性の向上を目的としたチャンクワイドノイズスケジューリングとシャッフル処理を提案する。
さらに、遠距離コヒーレンスを評価する新しい指標を組み込んだ、微小ビデオのきめ細かいベンチマークであるLV-Benchについても紹介する。
VBenchとLV-Benchの大規模な実験は、BlockVidが高品質でコヒーレントなビデオを生成する既存の方法より一貫して優れていることを示した。
特に、VDEの主題に対する22.2%の改善、LV-ベンチにおけるVDEの明確性に対する19.4%の改善を実現している。
プロジェクトウェブサイト: https://ziplab.co/BlockVid.com
Inferix (コード): https://github.com/alibaba-damo-academy/Inferix
関連論文リスト
- Uniform Discrete Diffusion with Metric Path for Video Generation [103.86033350602908]
連続空間ビデオ生成は急速に進歩し、離散的なアプローチはエラーの蓄積と長時間の矛盾により遅れている。
我々は、拡張性のあるビデオ生成のための連続的なアプローチでギャップを埋める強力なフレームワークであるUniform Generative ModelingとUniform pAth(URSA)を提案する。
URSAは既存の離散的手法を一貫して上回り、最先端の連続拡散法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T17:59:57Z) - Efficient Video Sampling: Pruning Temporally Redundant Tokens for Faster VLM Inference [5.146388234814547]
長いビデオはしばしば現代の言語モデルのトークン予算を超え、厳しいコンテキスト制限とレイテンシの問題に繋がる。
本稿では,時間的に静的なパッチを識別・プルーニングすることで,ビデオ中のトークンの冗長性を低減できる簡易なプラグイン・アンド・プレイ方式であるEfficient Video Sampling (EVS)を紹介する。
EVSは意味的忠実性を維持しながらトークン数を大幅に削減し、より高速な推論とより長い入力シーケンスを可能にする。
論文 参考訳(メタデータ) (2025-10-16T12:34:38Z) - InfVSR: Breaking Length Limits of Generic Video Super-Resolution [40.30527504651693]
InfVSRは、長いシーケンスに対する自己回帰1ステップ拡散パラダイムである。
拡散過程を1ステップに効率よく蒸留し,パッチワイズ画素監視とクロスチャンク分布マッチングを行う。
提案手法は,長大なVSRのフロンティアを推し進め,セマンティック一貫性を向上して最先端の品質を実現し,既存の手法よりも最大58倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-10-01T14:21:45Z) - LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE [16.561410415129778]
LongScapeは、チャンク内拡散とチャンク間自己回帰因果生成を組み合わせたハイブリッドフレームワークである。
私たちの中心となるイノベーションは、ロボットアクションのセマンティックコンテキストに基づいてビデオを分割するアクションガイド付き可変長チャンキングメカニズムです。
論文 参考訳(メタデータ) (2025-09-26T02:47:05Z) - BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching [6.354675628412448]
Block-Wise Caching (BWCache)は、DiTベースのビデオ生成を高速化するトレーニング不要の手法である。
いくつかのビデオ拡散モデルの実験では、BWCacheは2.24$times$ speedupを同等の視覚的品質で達成している。
論文 参考訳(メタデータ) (2025-09-17T07:58:36Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。