論文の概要: Speculative Decoding for Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2604.17397v1
- Date: Sun, 19 Apr 2026 12:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.504124
- Title: Speculative Decoding for Autoregressive Video Generation
- Title(参考訳): 自己回帰ビデオ生成のための投機的復号化
- Authors: Yuezhou Hu, Jintao Zhang,
- Abstract要約: ブロックベースの自己回帰ビデオ拡散に投機的復号化をもたらすSDVGを導入する。
1.3Bのドラフトラは、4つのデノナイジングステップを通じて候補ブロックを提案し、各ブロックはVAEデコードされ、ImageRewardによってスコア付けされる。
固定しきい値タウ以上のブロックは14BターゲットのKVキャッシュに受理され、残りはターゲットによって再生される。
- 参考スコア(独自算出の注目度): 9.370533301840284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion is emerging as a promising paradigm for streaming video synthesis, with step distillation serving as the primary means of accelerating inference. Whether speculative decoding, the dominant acceleration strategy for large language models, can be effectively adapted to autoregressive video generation remains an open question, because video blocks are continuous spatiotemporal tensors with no token-level distribution for exact rejection sampling. We introduce SDVG, which brings speculative decoding to block-based autoregressive video diffusion by replacing token verification with an image-quality router. A 1.3B drafter proposes candidate blocks via four denoising steps; each block is VAE-decoded and scored by ImageReward using worst-frame aggregation--taking the minimum per-frame reward to catch single-frame artifacts that averaging would mask. Blocks scoring above a fixed threshold tau are accepted into the 14B target's KV cache; the rest are regenerated by the target. Two additional design choices prove critical: the first block is always force-rejected to anchor scene composition, and tau serves as a single knob that traces a smooth quality-speed Pareto frontier. On 1003 MovieGenVideoBench prompts (832x480), SDVG retains 98.1% of target-only VisionReward quality (0.0773 vs. 0.0788) at a 1.59x speedup with tau=-0.7, and reaches 2.09x at 95.7% quality retention--while consistently outperforming draft-only generation by over +17%. The framework is training-free, requires no architectural changes, and can be seamlessly integrated into existing autoregressive video generation pipelines.
- Abstract(参考訳): 自動回帰ビデオ拡散はストリーミングビデオ合成において有望なパラダイムとして現れており、ステップ蒸留が推論を加速する主要な手段となっている。
大規模言語モデルにおいて支配的なアクセラレーション戦略である投機的復号化が自己回帰的ビデオ生成に効果的に適応できるかどうかは、ビデオブロックが正確な拒絶サンプリングのためのトークンレベル分布を持たない連続時空間テンソルであるため、未解決の問題である。
我々はSDVGを導入し、トークン検証を画像品質のルータに置き換えることで、ブロックベースの自己回帰ビデオ拡散に投機的復号化をもたらす。
それぞれのブロックは、ImageRewardによって、最悪のフレームアグリゲーションを使用して、VAEデコードされ、スコア付けされる。
固定しきい値タウ以上のブロックは14BターゲットのKVキャッシュに受理され、残りはターゲットによって再生される。
最初のブロックは常に強制的に外されてシーン構成をアンカーし、タウはスムーズなパレート・フロンティアを辿る単一のノブとして機能する。
1003 MovieGenVideoBench プロンプト (832x480) では、SDVG はターゲットのみの VisionReward 品質 (0.0773 vs. 0.0788) の98.1% を Tau=-0.7 で 1.59x で保持し、品質保持率 95.7% で2.09x に達する。
フレームワークはトレーニング不要で、アーキテクチャの変更を必要とせず、既存の自動回帰ビデオ生成パイプラインにシームレスに統合できる。
関連論文リスト
- TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos [51.99176811574457]
Inlicit Neural Representations (INRs) は、最近ビデオ圧縮における印象的な性能を実証した。
しかし、エンコーディング効率を維持しながら高解像度ビデオへのスケーリングは依然として大きな課題である。
3つの重要なコントリビューションを通じて、これらの基本的な制限に対処します。
我々は,UVG,HEVC,MCL-JCVで480p,720p,1080pで実験を行った最初のハイパーネットワークアプローチである。
論文 参考訳(メタデータ) (2026-02-18T18:59:55Z) - Flow caching for autoregressive video generation [72.10021661412364]
自動回帰ビデオ生成に特化して設計された,最初のキャッシュフレームワークであるFlowCacheを紹介する。
本手法は,MAGI-1では2.38倍,SkyReels-V2では6.7倍,品質劣化は無視できない。
論文 参考訳(メタデータ) (2026-02-11T13:11:04Z) - Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation [44.45173635133032]
BlockVidは、セマンティックなスパースKVキャッシュを備えた、新しいブロック拡散フレームワークである。
LV-Benchは、遠距離コヒーレンスを評価する新しいメトリクスを備えた、微小ビデオのためのきめ細かいベンチマークである。
論文 参考訳(メタデータ) (2025-11-28T08:25:59Z) - BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation [27.57431718095974]
本稿では,ビデオ推論のためのデータフリー共同学習フレームワークBLADEを紹介する。
異なるスケールで顕著な効率向上を示す。
短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは、我々のフレームワークはロバストな8.89倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-08-14T15:58:59Z) - VIDSTAMP: A Temporally-Aware Watermark for Ownership and Integrity in Video Diffusion Models [32.0365189539138]
VIDSTAMPは、時間的に認識されたビデオ拡散モデルの潜在空間に直接メッセージを埋め込む透かしフレームワークである。
提案手法は, 追加の推論コストを課さず, 従来の手法よりも知覚品質がよい。
論文 参考訳(メタデータ) (2025-05-02T17:35:03Z) - Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。
NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。
本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文 参考訳(メタデータ) (2025-02-11T17:57:53Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。