論文の概要: VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction
- arxiv url: http://arxiv.org/abs/2601.05966v2
- Date: Wed, 14 Jan 2026 14:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:41.087697
- Title: VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction
- Title(参考訳): VideoAR:次世代フレームとスケール予測による自動回帰ビデオ生成
- Authors: Longbin Ji, Xiaoxiong Liu, Junyuan Shang, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang,
- Abstract要約: VideoARは、ビデオ生成のための最初の大規模なVisual Autoregressiveフレームワークであり、マルチスケールの次世代の予測と自動回帰モデリングを組み合わせたものである。
VideoARは、フレーム内VARと因果次フレーム予測を統合することで、空間的および時間的依存関係をアンハングルする。
実証的な結果として、VideoARは、自動回帰モデル間の解像度を改善し、UCF-101上のFVDを99.5から88.6に改善し、10倍以上の推論ステップを減らし、拡散ベースのVBenchスコア81.74に到達した。
- 参考スコア(独自算出の注目度): 31.191310873846177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in video generation have been dominated by diffusion and flow-matching models, which produce high-quality results but remain computationally intensive and difficult to scale. In this work, we introduce VideoAR, the first large-scale Visual Autoregressive (VAR) framework for video generation that combines multi-scale next-frame prediction with autoregressive modeling. VideoAR disentangles spatial and temporal dependencies by integrating intra-frame VAR modeling with causal next-frame prediction, supported by a 3D multi-scale tokenizer that efficiently encodes spatio-temporal dynamics. To improve long-term consistency, we propose Multi-scale Temporal RoPE, Cross-Frame Error Correction, and Random Frame Mask, which collectively mitigate error propagation and stabilize temporal coherence. Our multi-stage pretraining pipeline progressively aligns spatial and temporal learning across increasing resolutions and durations. Empirically, VideoAR achieves new state-of-the-art results among autoregressive models, improving FVD on UCF-101 from 99.5 to 88.6 while reducing inference steps by over 10x, and reaching a VBench score of 81.74-competitive with diffusion-based models an order of magnitude larger. These results demonstrate that VideoAR narrows the performance gap between autoregressive and diffusion paradigms, offering a scalable, efficient, and temporally consistent foundation for future video generation research.
- Abstract(参考訳): ビデオ生成の最近の進歩は拡散とフローマッチングモデルによって支配されており、高品質な結果が得られるが、計算集約的でスケールが困難である。
本稿では,ビデオ生成のための大規模なVisual Autoregressive(VAR)フレームワークであるVideoARを紹介する。
VideoARは、フレーム内VARモデリングと因果次フレーム予測を統合することで、空間的および時間的依存関係をアンハングルする。
長期的整合性を改善するために,複数スケールの時間的RoPE,クロスフレーム誤り訂正,ランダムフレームマスクを提案し,エラーの伝播を緩和し,時間的コヒーレンスを安定化させる。
我々の多段階事前学習パイプラインは、時間と解像度の増大にまたがって、空間的学習と時間的学習を段階的に調整する。
実証的に、VideoARは自己回帰モデルの間で新しい最先端の結果を達成し、UCF-101上のFVDを99.5から88.6に改善し、推論ステップを10倍に減らし、VBenchスコアが81.74で拡散ベースモデルと比較すると、桁違いに大きくなった。
これらの結果は,ビデオARが自己回帰パラダイムと拡散パラダイムのパフォーマンスギャップを狭め,拡張性,効率性,時間的に一貫した基盤を提供することを示した。
関連論文リスト
- Playing with Transformer at 30+ FPS via Next-Frame Diffusion [40.04104312955399]
Next-Frame Diffusion (NFD) は、ブロックワイズ因果的注意を組み込んだ自己回帰拡散変換器である。
視覚的品質とサンプリング効率の両面でNFDが自己回帰ベースラインを上回っていることを示す。
310Mモデルを用いて,A100 GPU上で30フレーム/秒(FPS)以上の自己回帰ビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-06-02T07:16:01Z) - Generative Pre-trained Autoregressive Diffusion Transformer [74.25668109048418]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion [19.98565541640125]
自動回帰拡散(AR-Diffusion, Auto-Regressive Diffusion)は, フレキシブルビデオ生成のための自己回帰拡散モデルと拡散モデルの強みを組み合わせた新しいモデルである。
自己回帰生成に触発されて、個々のフレームの腐敗タイムステップに非減少制約を組み込む。
このセットアップは、時間的因果的注意とともに、時間的コヒーレンスを保ちながら、長さの異なる柔軟なビデオの生成を可能にする。
論文 参考訳(メタデータ) (2025-03-10T15:05:59Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。