論文の概要: Playing with Transformer at 30+ FPS via Next-Frame Diffusion
- arxiv url: http://arxiv.org/abs/2506.01380v1
- Date: Mon, 02 Jun 2025 07:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.28486
- Title: Playing with Transformer at 30+ FPS via Next-Frame Diffusion
- Title(参考訳): 次フレーム拡散による30FPS以上の変圧器の再生
- Authors: Xinle Cheng, Tianyu He, Jiayi Xu, Junliang Guo, Di He, Jiang Bian,
- Abstract要約: Next-Frame Diffusion (NFD) は、ブロックワイズ因果的注意を組み込んだ自己回帰拡散変換器である。
視覚的品質とサンプリング効率の両面でNFDが自己回帰ベースラインを上回っていることを示す。
310Mモデルを用いて,A100 GPU上で30フレーム/秒(FPS)以上の自己回帰ビデオ生成を実現する。
- 参考スコア(独自算出の注目度): 40.04104312955399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video models offer distinct advantages over bidirectional diffusion models in creating interactive video content and supporting streaming applications with arbitrary duration. In this work, we present Next-Frame Diffusion (NFD), an autoregressive diffusion transformer that incorporates block-wise causal attention, enabling iterative sampling and efficient inference via parallel token generation within each frame. Nonetheless, achieving real-time video generation remains a significant challenge for such models, primarily due to the high computational cost associated with diffusion sampling and the hardware inefficiencies inherent to autoregressive generation. To address this, we introduce two innovations: (1) We extend consistency distillation to the video domain and adapt it specifically for video models, enabling efficient inference with few sampling steps; (2) To fully leverage parallel computation, motivated by the observation that adjacent frames often share the identical action input, we propose speculative sampling. In this approach, the model generates next few frames using current action input, and discard speculatively generated frames if the input action differs. Experiments on a large-scale action-conditioned video generation benchmark demonstrate that NFD beats autoregressive baselines in terms of both visual quality and sampling efficiency. We, for the first time, achieves autoregressive video generation at over 30 Frames Per Second (FPS) on an A100 GPU using a 310M model.
- Abstract(参考訳): 自動回帰ビデオモデルは、インタラクティブなビデオコンテンツを作成し、任意の期間でストリーミングアプリケーションをサポートすることで、双方向拡散モデルよりも明確な利点を提供する。
本研究では,ブロック単位の因果的注意を組み込んだ自己回帰拡散変換器であるNext-Frame Diffusion(NFD)を提案する。
それでも、拡散サンプリングに伴う高い計算コストと、自己回帰生成に固有のハードウェア非効率が主な原因で、リアルタイムビデオ生成を実現することは、そのようなモデルにとって重要な課題である。
そこで本研究では,(1)ビデオ領域に連続蒸留を拡張し,ビデオモデルに特化して適用し,サンプリングステップの少ない効率的な推論を可能にする。(2) 並列計算を十分に活用するために,隣接するフレームが同一の動作入力を共有することがしばしばあるという観測結果から動機づけられた,投機的サンプリングを提案する。
このアプローチでは、現在のアクション入力を使用して次の数フレームを生成し、入力アクションが異なる場合、投機的に生成されたフレームを破棄する。
大規模なアクション条件付きビデオ生成ベンチマークの実験では、NFDは視覚的品質とサンプリング効率の両方で自己回帰ベースラインを上回っている。
310Mモデルを用いて,A100 GPU上で30フレーム/秒(FPS)以上の自動回帰ビデオ生成を実現した。
関連論文リスト
- From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。