論文の概要: DSA: Dynamic Step Allocation for Fast Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2606.04432v1
- Date: Wed, 03 Jun 2026 04:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.535569
- Title: DSA: Dynamic Step Allocation for Fast Autoregressive Video Generation
- Title(参考訳): DSA: 高速自動回帰ビデオ生成のための動的ステップアロケーション
- Authors: Thanh-Tung Le, Yunhan Zhao, Menglei Chai, Zhengyang Shen, Zhe Cao, Danhang Tang, Xiaohui Xie, Deying Kong,
- Abstract要約: ビデオ拡散トランスフォーマーは最先端の視覚的品質を達成したが、その高い推論コストは、リアルタイムアプリケーションにとって大きなボトルネックであり続けている。
本稿では、ARビデオ拡散のための信頼性誘導適応フレームワークであるDSAを提案する。
- 参考スコア(独自算出の注目度): 24.843472730316503
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video diffusion transformers have achieved state-of-the-art visual quality, but their high inference cost remains a major bottleneck for real-time applications. Recent distillation frameworks produce autoregressive video diffusion models with reduced latency, yet these models still use a fixed number of denoising steps per frame, wasting computation on predictable frames and under-refining challenging ones. We present DSA, a confidence-guided adaptive computation framework for AR video diffusion. DSA introduces a lightweight confidence head, trained jointly with the generator under a distribution-matching distillation objective, to estimate per-frame denoising reliability. At inference, this confidence signal dynamically adjusts the number of diffusion steps: simple frames terminate early for speed, while complex frames receive additional refinement. Our method requires no extra video data, no heuristics, and little architectural modification. Experiments show that DSA achieves real-time autoregressive video generation, reaching 22.63 FPS with sub-second latency on H100 GPUs, while maintaining competitive or superior VBench quality compared to recent autoregressive and bidirectional video diffusion models. Our results demonstrate that confidence-guided adaptive sampling provides an effective and practical path toward interactive video generation.
- Abstract(参考訳): ビデオ拡散トランスフォーマーは最先端の視覚的品質を達成したが、その高い推論コストは、リアルタイムアプリケーションにとって大きなボトルネックであり続けている。
最近の蒸留フレームワークは、遅延を低減した自己回帰的ビデオ拡散モデルを生成するが、これらのモデルは、フレーム毎に一定の数のデノイングステップを使用し、予測可能なフレーム上での計算を無駄にし、難易度を低くする。
本稿では、ARビデオ拡散のための信頼性誘導適応計算フレームワークであるDSAを提案する。
DSAは、分布整合蒸留目標の下で発電機と共同で訓練された軽量な信頼性ヘッドを導入し、フレーム当たりの騒音信頼性を推定する。
推論において、この信頼信号は拡散ステップの数を動的に調整する:単純なフレームは早めに終了し、複雑なフレームはさらなる洗練を受ける。
私たちの方法では、余分なビデオデータやヒューリスティック、アーキテクチャの変更は必要ありません。
実験により、DSAはリアルタイムの自己回帰ビデオ生成を実現し、H100 GPU上で22.63 FPSのサブ秒レイテンシを実現し、最近の自己回帰ビデオ拡散モデルや双方向ビデオ拡散モデルと比較して、競争力や優れたVBench品質を維持した。
この結果から,信頼性誘導型適応サンプリングは対話型ビデオ生成へ効果的かつ実践的な道筋を提供することが示された。
関連論文リスト
- VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction [31.191310873846177]
VideoARは、ビデオ生成のための最初の大規模なVisual Autoregressiveフレームワークであり、マルチスケールの次世代の予測と自動回帰モデリングを組み合わせたものである。
VideoARは、フレーム内VARと因果次フレーム予測を統合することで、空間的および時間的依存関係をアンハングルする。
実証的な結果として、VideoARは、自動回帰モデル間の解像度を改善し、UCF-101上のFVDを99.5から88.6に改善し、10倍以上の推論ステップを減らし、拡散ベースのVBenchスコア81.74に到達した。
論文 参考訳(メタデータ) (2026-01-09T17:34:59Z) - Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models [18.761042377485367]
POSE(Phased One-Step Equilibrium)は、大規模ビデオ拡散モデルのサンプリングステップを削減する蒸留フレームワークである。
PSEはVBench-I2V上の他の加速度法よりもセマンティックアライメント,時間的会議,フレーム品質が平均7.15%向上していることを示す。
論文 参考訳(メタデータ) (2025-08-28T17:20:01Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Playing with Transformer at 30+ FPS via Next-Frame Diffusion [40.04104312955399]
Next-Frame Diffusion (NFD) は、ブロックワイズ因果的注意を組み込んだ自己回帰拡散変換器である。
視覚的品質とサンプリング効率の両面でNFDが自己回帰ベースラインを上回っていることを示す。
310Mモデルを用いて,A100 GPU上で30フレーム/秒(FPS)以上の自己回帰ビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-06-02T07:16:01Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。