論文の概要: MAGI-1: Autoregressive Video Generation at Scale
- arxiv url: http://arxiv.org/abs/2505.13211v1
- Date: Mon, 19 May 2025 14:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.678831
- Title: MAGI-1: Autoregressive Video Generation at Scale
- Title(参考訳): MAGI-1: 大規模自動回帰ビデオ生成
- Authors: Sand. ai, Hansi Teng, Hongyu Jia, Lei Sun, Lingzhi Li, Maolin Li, Mingqiu Tang, Shuai Han, Tianning Zhang, W. Q. Zhang, Weifeng Luo, Xiaoyang Kang, Yuchen Sun, Yue Cao, Yunpeng Huang, Yutong Lin, Yuxin Fang, Zewei Tao, Zheng Zhang, Zhongshu Wang, Zixun Liu, Dai Shi, Guoli Su, Hanwen Sun, Hong Pan, Jie Wang, Jiexin Sheng, Min Cui, Min Hu, Ming Yan, Shucheng Yin, Siran Zhang, Tingting Liu, Xianping Yin, Xiaoyu Yang, Xin Song, Xuan Hu, Yankai Zhang, Yuqiao Li,
- Abstract要約: 我々は,映像チャンクの連続を自動回帰予測して映像を生成する世界モデルMAGI-1を提案する。
テキスト命令で条件付けられたI2V(Image-to-Video)タスクで高いパフォーマンスを実現する。
MAGI-1の最大の変種は、24億のパラメータで構成され、最大400万のトークンのコンテキスト長をサポートする。
- 参考スコア(独自算出の注目度): 30.70210883833553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MAGI-1, a world model that generates videos by autoregressively predicting a sequence of video chunks, defined as fixed-length segments of consecutive frames. Trained to denoise per-chunk noise that increases monotonically over time, MAGI-1 enables causal temporal modeling and naturally supports streaming generation. It achieves strong performance on image-to-video (I2V) tasks conditioned on text instructions, providing high temporal consistency and scalability, which are made possible by several algorithmic innovations and a dedicated infrastructure stack. MAGI-1 facilitates controllable generation via chunk-wise prompting and supports real-time, memory-efficient deployment by maintaining constant peak inference cost, regardless of video length. The largest variant of MAGI-1 comprises 24 billion parameters and supports context lengths of up to 4 million tokens, demonstrating the scalability and robustness of our approach. The code and models are available at https://github.com/SandAI-org/MAGI-1 and https://github.com/SandAI-org/MagiAttention. The product can be accessed at https://sand.ai.
- Abstract(参考訳): 我々は,連続フレームの固定長セグメントとして定義されるビデオチャンク列を自動回帰予測して映像を生成する世界モデルMAGI-1を提案する。
MAGI-1は、時間とともに単調に増加するチャンク毎のノイズを識別するために訓練され、因果時間モデリングを可能にし、ストリーミング生成を自然にサポートする。
テキスト命令で条件付けられた画像対ビデオ(I2V)タスクに対して強力なパフォーマンスを実現し、アルゴリズムの革新と専用のインフラストラクチャスタックによって実現された、高時間一貫性とスケーラビリティを提供する。
MAGI-1は、チャンクワイズプロンプトによる制御可能な生成を容易にし、ビデオ長に関わらず一定のピーク推論コストを維持することにより、リアルタイム、メモリ効率のデプロイメントをサポートする。
MAGI-1の最大の変種は、24億のパラメータで構成され、最大400万のトークンのコンテキスト長をサポートし、我々のアプローチのスケーラビリティと堅牢性を示している。
コードとモデルはhttps://github.com/SandAI-org/MAGI-1とhttps://github.com/SandAI-org/MagiAttentionで入手できる。
この製品はhttps://sand.ai.comでアクセスできる。
関連論文リスト
- Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation [38.256412418893554]
混合精度で1時間ビデオを処理する階層型ビデオ言語モデルViLaMPを開発した。
ViLaMPは、4つのビデオ理解ベンチマーク、特に長めのコンテンツで優れたパフォーマンスを誇っている。
特にViLaMPは、単一のNVIDIA A100 GPU上で超長いビデオ(最大10Kフレーム)を処理できる。
論文 参考訳(メタデータ) (2025-04-03T09:55:09Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。
テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文 参考訳(メタデータ) (2025-02-11T16:58:15Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。