論文の概要: Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
- arxiv url: http://arxiv.org/abs/2506.09350v1
- Date: Wed, 11 Jun 2025 03:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.272071
- Title: Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation
- Title(参考訳): リアルタイム対話型ビデオ生成のための自己回帰的対向的ポストトライニング
- Authors: Shanchuan Lin, Ceyuan Yang, Hao He, Jianwen Jiang, Yuxi Ren, Xin Xia, Yang Zhao, Xuefeng Xiao, Lu Jiang,
- Abstract要約: 既存の大規模ビデオ生成モデルは計算集約的である。
本稿では,事前学習した遅延ビデオ拡散モデルをリアルタイムな対話型ビデオ生成器に変換するための自己回帰逆行後訓練を提案する。
モデルでは1つのニューラルファンクション評価を用いて1回に1つの潜在フレームを自動回帰的に生成する。
- 参考スコア(独自算出の注目度): 35.96336774165454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing large-scale video generation models are computationally intensive, preventing adoption in real-time and interactive applications. In this work, we propose autoregressive adversarial post-training (AAPT) to transform a pre-trained latent video diffusion model into a real-time, interactive video generator. Our model autoregressively generates a latent frame at a time using a single neural function evaluation (1NFE). The model can stream the result to the user in real time and receive interactive responses as controls to generate the next latent frame. Unlike existing approaches, our method explores adversarial training as an effective paradigm for autoregressive generation. This not only allows us to design an architecture that is more efficient for one-step generation while fully utilizing the KV cache, but also enables training the model in a student-forcing manner that proves to be effective in reducing error accumulation during long video generation. Our experiments demonstrate that our 8B model achieves real-time, 24fps, streaming video generation at 736x416 resolution on a single H100, or 1280x720 on 8xH100 up to a minute long (1440 frames). Visit our research website at https://seaweed-apt.com/2
- Abstract(参考訳): 既存の大規模ビデオ生成モデルは計算集約的であり、リアルタイムおよびインタラクティブなアプリケーションでは採用されない。
本研究では,事前学習した遅延ビデオ拡散モデルをリアルタイムにインタラクティブなビデオ生成装置に変換するために,自己回帰逆行後トレーニング(AAPT)を提案する。
本モデルでは,1つの神経機能評価(1NFE)を用いて1回に1つの潜在フレームを自動回帰的に生成する。
モデルはリアルタイムで結果をストリームし、次の潜伏フレームを生成するための制御として対話的な応答を受け取ることができる。
従来の手法と異なり, 自己回帰生成のための効果的なパラダイムとして, 対人訓練を探索する。
これにより、KVキャッシュをフル活用しながらワンステップ生成に効率の良いアーキテクチャを設計できるだけでなく、長いビデオ生成時にエラーの蓄積を減らすのに有効であることを示す学生強制的なモデルトレーニングも可能となる。
我々の8Bモデルは、1つのH100で736x416の解像度でリアルタイム、24fps、ストリーミングビデオ生成、または8xH100で1分間(1440フレーム)までの1280x720を実現している。
研究ウェブサイトはhttps://seaweed-apt.com/2。
関連論文リスト
- Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - LongDWM: Cross-Granularity Distillation for Building a Long-Term Driving World Model [22.92353994818742]
ドライビングワールドモデルは、現在の状態と行動の状態に基づいて、ビデオ生成によって未来をシミュレートするために使用される。
最近の研究は、ディフュージョントランスフォーマー(DiT)を駆動世界モデルのバックボーンとして利用し、学習の柔軟性を向上させる。
我々は、シンプルで効果的な長期運転世界モデルを構築するためのソリューションをいくつか提案する。
論文 参考訳(メタデータ) (2025-06-02T11:19:23Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。