論文の概要: Autoregressive Video Generation beyond Next Frames Prediction
- arxiv url: http://arxiv.org/abs/2509.24081v1
- Date: Sun, 28 Sep 2025 21:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.622311
- Title: Autoregressive Video Generation beyond Next Frames Prediction
- Title(参考訳): 次世代フレーム予測を超える自動回帰ビデオ生成
- Authors: Sucheng Ren, Chen Chen, Zhenbang Wang, Liangchen Song, Xiangxin Zhu, Alan Yuille, Yinfei Yang, Jiasen Lu,
- Abstract要約: VideoARは、様々な予測ユニットをサポートする統一されたフレームワークである。
立方体に基づく予測は、常に優れた品質、速度、時間的コヒーレンスを提供する。
- 参考スコア(独自算出の注目度): 30.652962125159707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models for video generation typically operate frame-by-frame, extending next-token prediction from language to video's temporal dimension. We question that unlike word as token is universally agreed in language if frame is a appropriate prediction unit? To address this, we present VideoAR, a unified framework that supports a spectrum of prediction units including full frames, key-detail frames, multiscale refinements, and spatiotemporal cubes. Among these designs, we find model video generation using \textit{spatiotemporal} cubes as prediction units, which allows autoregressive models to operate across both spatial and temporal dimensions simultaneously. This approach eliminates the assumption that frames are the natural atomic units for video autoregression. We evaluate VideoAR across diverse prediction strategies, finding that cube-based prediction consistently delivers superior quality, speed, and temporal coherence. By removing the frame-by-frame constraint, our video generator surpasses state-of-the-art baselines on VBench while achieving faster inference and enabling seamless scaling to minute-long sequences. We hope this work will motivate rethinking sequence decomposition in video and other spatiotemporal domains.
- Abstract(参考訳): ビデオ生成のための自己回帰モデルは一般的にフレーム単位で動作し、言語からビデオの時間次元まで次のトーケン予測を延ばす。
フレームが適切な予測単位である場合、トークンとしての単語は言語で普遍的に合意されるのか?
そこで本研究では,フルフレーム,キー・ディテール・フレーム,マルチスケール・リファインメント,時空間立方体など,一連の予測単位をサポートする統合フレームワークであるVideoARを提案する。
これらの設計の中で,<textit{spatiotemporal} 立方体を予測単位として,空間次元と時間次元を同時に操作できる自己回帰モデルを提案する。
このアプローチは、フレームがビデオ自己回帰の自然な原子単位であるという仮定を排除する。
我々は,ビデオARを様々な予測戦略で評価し,立方体ベースの予測が常に優れた品質,速度,時間的コヒーレンスを提供することを示した。
フレーム単位の制約を取り除くことで、ビデオジェネレータはVBenchの最先端のベースラインを超越し、高速な推論を実現し、マイクロロングシーケンスへのシームレスなスケーリングを可能にします。
この研究がビデオや他の時空間領域におけるシーケンス分解の再考を動機付けることを願っている。
関連論文リスト
- FRAME: Pre-Training Video Feature Representations via Anticipation and Memory [55.046881477209695]
FRAMEは、高密度ビデオ理解に適した自己監督型ビデオフレームエンコーダである。
同社は、過去と現在のRGBフレームから現在と将来のDINOパッチ機能を予測することを学ぶ。
画像エンコーダや既存の自己監督型ビデオモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-06-05T19:44:47Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-05-19T20:58:05Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。