論文の概要: StreamDiT: Real-Time Streaming Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2507.03745v1
- Date: Fri, 04 Jul 2025 18:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.862098
- Title: StreamDiT: Real-Time Streaming Text-to-Video Generation
- Title(参考訳): StreamDiT:リアルタイム・ストリーミング・テキスト・ビデオ・ジェネレーション
- Authors: Akio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao,
- Abstract要約: 本稿では,ストリーミングビデオ生成モデルであるStreamDiTを提案する。
StreamDiTトレーニングは、移動バッファの追加によるフローマッチングに基づいている。
バッファリングフレームの異なるパーティショニング方式による混合トレーニングを設計し、コンテンツ一貫性と視覚的品質を両立させる。
我々のモデルは、ストリーミング生成、インタラクティブ生成、ビデオ・ツー・ビデオなどのリアルタイムアプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 40.441404889974294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, great progress has been achieved in text-to-video (T2V) generation by scaling transformer-based diffusion models to billions of parameters, which can generate high-quality videos. However, existing models typically produce only short clips offline, restricting their use cases in interactive and real-time applications. This paper addresses these challenges by proposing StreamDiT, a streaming video generation model. StreamDiT training is based on flow matching by adding a moving buffer. We design mixed training with different partitioning schemes of buffered frames to boost both content consistency and visual quality. StreamDiT modeling is based on adaLN DiT with varying time embedding and window attention. To practice the proposed method, we train a StreamDiT model with 4B parameters. In addition, we propose a multistep distillation method tailored for StreamDiT. Sampling distillation is performed in each segment of a chosen partitioning scheme. After distillation, the total number of function evaluations (NFEs) is reduced to the number of chunks in a buffer. Finally, our distilled model reaches real-time performance at 16 FPS on one GPU, which can generate video streams at 512p resolution. We evaluate our method through both quantitative metrics and human evaluation. Our model enables real-time applications, e.g. streaming generation, interactive generation, and video-to-video. We provide video results and more examples in our project website: <a href="https://cumulo-autumn.github.io/StreamDiT/">this https URL.</a>
- Abstract(参考訳): 近年,テキスト・ツー・ビデオ(T2V)生成において,トランスフォーマー・ベースの拡散モデルを数十億のパラメータに拡張し,高品質なビデオを生成することで大きな進歩を遂げている。
しかし、既存のモデルは、通常、オフラインで短いクリップだけを生成し、インタラクティブでリアルタイムなアプリケーションでのユースケースを制限する。
本稿では,ストリーミングビデオ生成モデルであるStreamDiTを提案することで,これらの課題に対処する。
StreamDiTトレーニングは、移動バッファの追加によるフローマッチングに基づいている。
バッファリングフレームの異なるパーティショニング方式による混合トレーニングを設計し、コンテンツ一貫性と視覚的品質を両立させる。
StreamDiTモデリングは、異なる時間埋め込みとウィンドウアテンションを持つadaLN DiTに基づいている。
提案手法を実践するために,4Bパラメータを用いたStreamDiTモデルを訓練する。
また,StreamDiTに適した多段蒸留法を提案する。
選択された分割方式の各セグメントでサンプリング蒸留を行う。
蒸留後、機能評価総数(NFE)をバッファ内のチャンク数に削減する。
最後に, 蒸留モデルでは1GPUで16FPSのリアルタイム性能を実現し, 512pの解像度でビデオストリームを生成することができる。
定量的評価と人的評価の両面から,本手法の評価を行った。
本モデルは,リアルタイムアプリケーション,egストリーミング生成,インタラクティブ生成,ビデオ・ツー・ビデオを実現する。
a href="https://cumulo-autumn.github.io/StreamDiT/"> this https URL。
</a>。
関連論文リスト
- Playing with Transformer at 30+ FPS via Next-Frame Diffusion [40.04104312955399]
Next-Frame Diffusion (NFD) は、ブロックワイズ因果的注意を組み込んだ自己回帰拡散変換器である。
視覚的品質とサンプリング効率の両面でNFDが自己回帰ベースラインを上回っていることを示す。
310Mモデルを用いて,A100 GPU上で30フレーム/秒(FPS)以上の自己回帰ビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-06-02T07:16:01Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Continuous Video Process: Modeling Videos as Continuous Multi-Dimensional Processes for Video Prediction [43.16308241800144]
本稿では,映像を連続的な多次元プロセスとして扱う新しいモデルクラスを提案する。
我々は、KTH、BAIR、Human3.6M、UCF101などのベンチマークデータセットで検証された、ビデオ予測における最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-12-06T10:34:50Z) - Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。
元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。
フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文 参考訳(メタデータ) (2024-10-08T12:10:37Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。
テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文 参考訳(メタデータ) (2022-09-19T17:59:02Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。