論文の概要: Playing with Transformer at 30+ FPS via Next-Frame Diffusion
- arxiv url: http://arxiv.org/abs/2506.01380v2
- Date: Fri, 04 Jul 2025 14:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.374072
- Title: Playing with Transformer at 30+ FPS via Next-Frame Diffusion
- Title(参考訳): 次フレーム拡散による30FPS以上の変圧器の再生
- Authors: Xinle Cheng, Tianyu He, Jiayi Xu, Junliang Guo, Di He, Jiang Bian,
- Abstract要約: Next-Frame Diffusion (NFD) は、ブロックワイズ因果的注意を組み込んだ自己回帰拡散変換器である。
視覚的品質とサンプリング効率の両面でNFDが自己回帰ベースラインを上回っていることを示す。
310Mモデルを用いて,A100 GPU上で30フレーム/秒(FPS)以上の自己回帰ビデオ生成を実現する。
- 参考スコア(独自算出の注目度): 40.04104312955399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video models offer distinct advantages over bidirectional diffusion models in creating interactive video content and supporting streaming applications with arbitrary duration. In this work, we present Next-Frame Diffusion (NFD), an autoregressive diffusion transformer that incorporates block-wise causal attention, enabling iterative sampling and efficient inference via parallel token generation within each frame. Nonetheless, achieving real-time video generation remains a significant challenge for such models, primarily due to the high computational cost associated with diffusion sampling and the hardware inefficiencies inherent to autoregressive generation. To address this, we introduce two innovations: (1) We extend consistency distillation to the video domain and adapt it specifically for video models, enabling efficient inference with few sampling steps; (2) To fully leverage parallel computation, motivated by the observation that adjacent frames often share the identical action input, we propose speculative sampling. In this approach, the model generates next few frames using current action input, and discard speculatively generated frames if the input action differs. Experiments on a large-scale action-conditioned video generation benchmark demonstrate that NFD beats autoregressive baselines in terms of both visual quality and sampling efficiency. We, for the first time, achieves autoregressive video generation at over 30 Frames Per Second (FPS) on an A100 GPU using a 310M model.
- Abstract(参考訳): 自動回帰ビデオモデルは、インタラクティブなビデオコンテンツを作成し、任意の期間でストリーミングアプリケーションをサポートすることで、双方向拡散モデルよりも明確な利点を提供する。
本研究では,ブロック単位の因果的注意を組み込んだ自己回帰拡散変換器であるNext-Frame Diffusion(NFD)を提案する。
それでも、拡散サンプリングに伴う高い計算コストと、自己回帰生成に固有のハードウェア非効率が主な原因で、リアルタイムビデオ生成を実現することは、そのようなモデルにとって重要な課題である。
そこで本研究では,(1)ビデオ領域に連続蒸留を拡張し,ビデオモデルに特化して適用し,サンプリングステップの少ない効率的な推論を可能にする。(2) 並列計算を十分に活用するために,隣接するフレームが同一の動作入力を共有することがしばしばあるという観測結果から動機づけられた,投機的サンプリングを提案する。
このアプローチでは、現在のアクション入力を使用して次の数フレームを生成し、入力アクションが異なる場合、投機的に生成されたフレームを破棄する。
大規模なアクション条件付きビデオ生成ベンチマークの実験では、NFDは視覚的品質とサンプリング効率の両方で自己回帰ベースラインを上回っている。
310Mモデルを用いて,A100 GPU上で30フレーム/秒(FPS)以上の自動回帰ビデオ生成を実現した。
関連論文リスト
- StreamDiT: Real-Time Streaming Text-to-Video Generation [40.441404889974294]
本稿では,ストリーミングビデオ生成モデルであるStreamDiTを提案する。
StreamDiTトレーニングは、移動バッファの追加によるフローマッチングに基づいている。
バッファリングフレームの異なるパーティショニング方式による混合トレーニングを設計し、コンテンツ一貫性と視覚的品質を両立させる。
我々のモデルは、ストリーミング生成、インタラクティブ生成、ビデオ・ツー・ビデオなどのリアルタイムアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-07-04T18:00:01Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。