論文の概要: SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2605.15178v1
- Date: Thu, 14 May 2026 17:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.008017
- Title: SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
- Title(参考訳): SANA-WM:ハイブリッド線形拡散変換器を用いた高効率分量スケール世界モデリング
- Authors: Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie,
- Abstract要約: SANA-WM(SANA-WM)は、1分間の高忠実度、720pの精密なカメラ制御で訓練された効率的なオープンソースワールドモデルである。
SANA-WMはLingBot-WorldやHY-WorldPlayのような大規模産業ベースラインに匹敵する視覚的品質を実現している。
- 参考スコア(独自算出の注目度): 45.09089555026137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only $\sim$213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at $36\times$ higher throughput for scalable world modeling.
- Abstract(参考訳): SANA-WMは、1分間にネイティブにトレーニングされた2.6Bパラメートルのオープンソースワールドモデルで、高忠実度、720p、精密なカメラ制御による分スケールビデオの合成を行う。
SANA-WMはLingBot-WorldやHY-WorldPlayのような大規模産業ベースラインに匹敵する視覚的品質を達成し、効率を大幅に改善する。
1)Hybrid Linear Attentionは、フレームワイドGated DeltaNet(GDN)とソフトマックスアテンションを組み合わせて、メモリ効率のよいロングコンテキストモデリングを行う。
2) デュアルブランチカメラ制御は正確な6-DoF軌道の定着を保証する。
(3)2段階生成パイプラインは、ステージ1出力に長時間の精細化を施し、シーケンス間の品質と一貫性を向上させる。
(4)ロバストアノテーションパイプラインは、高画質で時空間的に一貫したアクションラベルを生成するために、公開ビデオから正確なメトリックスケールの6-DoFカメラのポーズを抽出する。
これらの設計によって、SANA-WMdemonはデータ、トレーニング計算、推論ハードウェアの大幅な効率向上を実現している: メトリックスケールのポーズ監視を備えた$213Kのパブリックビデオクリップのみを使用し、64 H100sで15日間のトレーニングを完了し、1つのGPUで各60秒のクリップを生成し、蒸留された変種は、単一のRTX 5090にNVFP4量子化で展開し、34秒で60s 720pのクリップを識別する。
われわれの1分間の世界モデルベンチマークでは、SANA-WMは以前のオープンソースベースラインよりも強力なアクションフォロー精度を示し、スケーラブルな世界モデリングのスループットを36\times$36\timesで達成しています。
関連論文リスト
- Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising [22.899605451385824]
我々は,リアルタイムなロボットアクションの実行と高忠実度4D世界合成(ビデオ+3D再構成)を単一のフレームワークで統合する,統一された4D世界モデルであるX-WAMを提案する。
X-WAMは、事前訓練されたビデオ拡散モデルの強い視覚的優位性を活用するために、マルチビューRGB-Dビデオを予測することによって未来を想像する。
非同期ノイズサンプリング(ANS)は、生成品質と動作復号効率を共同で最適化する。
論文 参考訳(メタデータ) (2026-04-29T14:01:54Z) - PAM: A Pose-Appearance-Motion Engine for Sim-to-Real HOI Video Generation [28.212560558538915]
PAM: A Pose-Appearance-Motion Engine for controllable HOI video generation。
DexYCBではFVDが29.13(InterDynは38.83)、MPJPEが19.37mm(CosHandは30.05mm)である。
論文 参考訳(メタデータ) (2026-03-23T16:51:52Z) - Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model [52.79436545460808]
本稿では,人中心生成のためのオープンソースオーディオビデオ生成基盤モデルdaVinci-MagiHumanを紹介する。
DaVinci-MagiHumanは、単一ストリームトランスフォーマーを使用して、同期ビデオとオーディオを共同で生成する。
中国語(マンダリン語とカントン語)、英語、日本語、韓国語、ドイツ語、フランス語の多言語音声生成をサポートする。
論文 参考訳(メタデータ) (2026-03-23T13:49:06Z) - SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer [116.17385614259574]
SANA-Videoは、720×1280の解像度と分長のビデオを効率よく生成できる小さな拡散モデルである。
2つのコア設計により、効率的な、効果的で、長いビデオ生成が保証されます。
コストの安いSANA-Videoは、現代の最先端の小さな拡散モデルと比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2025-09-29T12:28:09Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。