論文の概要: SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2509.24695v1
- Date: Mon, 29 Sep 2025 12:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.972395
- Title: SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
- Title(参考訳): SANA-Video: ブロック線形拡散変換器を用いた効率的なビデオ生成
- Authors: Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang, Muyang Li, Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie,
- Abstract要約: SANA-Videoは、720×1280の解像度と分長のビデオを効率よく生成できる小さな拡散モデルである。
2つのコア設計により、効率的な、効果的で、長いビデオ生成が保証されます。
コストの安いSANA-Videoは、現代の最先端の小さな拡散モデルと比較して、競争性能を達成している。
- 参考スコア(独自算出の注目度): 116.17385614259574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce SANA-Video, a small diffusion model that can efficiently generate videos up to 720x1280 resolution and minute-length duration. SANA-Video synthesizes high-resolution, high-quality and long videos with strong text-video alignment at a remarkably fast speed, deployable on RTX 5090 GPU. Two core designs ensure our efficient, effective and long video generation: (1) Linear DiT: We leverage linear attention as the core operation, which is more efficient than vanilla attention given the large number of tokens processed in video generation. (2) Constant-Memory KV cache for Block Linear Attention: we design block-wise autoregressive approach for long video generation by employing a constant-memory state, derived from the cumulative properties of linear attention. This KV cache provides the Linear DiT with global context at a fixed memory cost, eliminating the need for a traditional KV cache and enabling efficient, minute-long video generation. In addition, we explore effective data filters and model training strategies, narrowing the training cost to 12 days on 64 H100 GPUs, which is only 1% of the cost of MovieGen. Given its low cost, SANA-Video achieves competitive performance compared to modern state-of-the-art small diffusion models (e.g., Wan 2.1-1.3B and SkyReel-V2-1.3B) while being 16x faster in measured latency. Moreover, SANA-Video can be deployed on RTX 5090 GPUs with NVFP4 precision, accelerating the inference speed of generating a 5-second 720p video from 71s to 29s (2.4x speedup). In summary, SANA-Video enables low-cost, high-quality video generation.
- Abstract(参考訳): SANA-Videoは、720×1280の解像度と分長のビデオを効率よく生成できる小さな拡散モデルである。
SANA-Videoは、高解像度で高品質で長いビデオを合成し、強力なテキストビデオアライメントを驚くほど高速に、RTX 5090 GPU上にデプロイできる。
1) 線形DiT: ビデオ生成で処理される大量のトークンを考えると、バニラ注意よりも効率的である線形注意をコア操作として活用する。
2) ブロック線形アテンションのための定数メモリKVキャッシュ: 線形アテンションの累積特性から導かれる定数メモリ状態を利用することで、長いビデオ生成のためのブロックワイズ自己回帰アプローチを設計する。
このKVキャッシュは、グローバルコンテキストのLinear DiTを固定メモリコストで提供し、従来のKVキャッシュの必要性をなくし、効率的な分長のビデオ生成を可能にする。
さらに,64 H100 GPU上でのトレーニングコストを12日に短縮する,効率的なデータフィルタとモデルトレーニング戦略についても検討する。
低コストのため、SANA-Videoは現在の最先端の小さな拡散モデル(Wan 2.1-1.3BやSkyReel-V2-1.3Bなど)と比較して16倍のレイテンシで競合性能を達成している。
さらに、SANA-Videoは、NVFP4精度でRTX 5090 GPUにデプロイすることができ、71sから29s(2.4倍のスピードアップ)の5秒720pビデオを生成する推論速度を加速する。
要約すると、SANA-Videoは低コストで高品質なビデオ生成を可能にする。
関連論文リスト
- Astraea: A Token-wise Acceleration Framework for Video Diffusion Transformers [29.130090574300635]
ビデオ拡散変換器(vDiTs)は、テキストからビデオへの生成において大きな進歩を遂げているが、その計算要求は、実用的な展開において大きな課題となっている。
Astraeaは,vDiTをベースとしたビデオ生成の最適に近い構成を,パフォーマンス目標下で検索するフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T14:41:38Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
我々は、ビデオには画像よりもはるかに冗長な情報が含まれており、非常に少ない動きでエンコードできると主張している。
我々は、映像を非常に圧縮された潜在空間に投影する画像条件付きVAEを設計し、コンテンツ画像に基づいてデコードする。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。