論文の概要: MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models
- arxiv url: http://arxiv.org/abs/2510.17519v2
- Date: Wed, 22 Oct 2025 10:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.056883
- Title: MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models
- Title(参考訳): MUG-V 10B:大規模ビデオ生成モデルのための高効率訓練パイプライン
- Authors: Yongshun Zhang, Zhongyi Fan, Yonghang Zhang, Zhangzikang Li, Weifeng Chen, Zhongwei Feng, Chaoyue Wang, Peng Hou, Anxiang Zeng,
- Abstract要約: 大規模なビデオ生成モデルのトレーニングは、依然として困難でリソース集約的だ。
データ処理,モデルアーキテクチャ,トレーニング戦略,インフラストラクチャの4つの柱を最適化するトレーニングフレームワークを提案する。
モデルウェイト,Megatron-Coreベースの大規模トレーニングコード,ビデオ生成と拡張のための推論パイプラインなどを含む,完全なスタックをオープンソースとして公開しています。
- 参考スコア(独自算出の注目度): 23.09416541835573
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, large-scale generative models for visual content (\textit{e.g.,} images, videos, and 3D objects/scenes) have made remarkable progress. However, training large-scale video generation models remains particularly challenging and resource-intensive due to cross-modal text-video alignment, the long sequences involved, and the complex spatiotemporal dependencies. To address these challenges, we present a training framework that optimizes four pillars: (i) data processing, (ii) model architecture, (iii) training strategy, and (iv) infrastructure for large-scale video generation models. These optimizations delivered significant efficiency gains and performance improvements across all stages of data preprocessing, video compression, parameter scaling, curriculum-based pretraining, and alignment-focused post-training. Our resulting model, MUG-V 10B, matches recent state-of-the-art video generators overall and, on e-commerce-oriented video generation tasks, surpasses leading open-source baselines in human evaluations. More importantly, we open-source the complete stack, including model weights, Megatron-Core-based large-scale training code, and inference pipelines for video generation and enhancement. To our knowledge, this is the first public release of large-scale video generation training code that exploits Megatron-Core to achieve high training efficiency and near-linear multi-node scaling, details are available in https://github.com/Shopee-MUG/MUG-V.
- Abstract(参考訳): 近年,映像・映像・3Dオブジェクト・シーンの大規模生成モデルが著しく進歩している。
しかし、大規模なビデオ生成モデルのトレーニングは、クロスモーダルなテキスト・ビデオアライメント、関連する長いシーケンス、複雑な時空間依存性のために、特に困難でリソース集約的なままである。
これらの課題に対処するために,4つの柱を最適化するトレーニングフレームワークを提案する。
(i)データ処理
(II)モデルアーキテクチャ
(三)訓練戦略、及び
(4)大規模ビデオ生成モデルのためのインフラ。
これらの最適化により、データ前処理、ビデオ圧縮、パラメータスケーリング、カリキュラムベースの事前トレーニング、アライメントにフォーカスした後トレーニングのすべての段階において、大幅な効率向上とパフォーマンス向上を実現した。
我々の生成したMUG-V 10Bは、最近の最先端ビデオジェネレータと総合的に一致し、eコマース指向のビデオ生成タスクにおいて、人間の評価における主要なオープンソースベースラインを超える。
さらに重要なのは、モデルウェイト、Megatron-Coreベースの大規模トレーニングコード、ビデオ生成と拡張のための推論パイプラインなど、完全なスタックをオープンソースにしています。
私たちの知る限り、これはMegatron-Coreを利用して高いトレーニング効率とニアリニアなマルチノードスケーリングを実現する大規模なビデオ生成トレーニングコードの最初の公開リリースであり、詳細はhttps://github.com/Shopee-MUG/MUG-Vで確認できる。
関連論文リスト
- ContentV: Efficient Training of Video Generation Models with Limited Compute [16.722018026516867]
ContentVはテキスト・ツー・ビデオのモデルであり、テキスト・プロンプトから複数の解像度と期間にわたる多様な高品質のビデオを生成する。
256 x 64GBのニューラルプロセッシングユニット(NPU)を4週間訓練した後、最先端のパフォーマンス(VBenchでは85.14)を達成した。
論文 参考訳(メタデータ) (2025-06-05T17:59:54Z) - Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。
我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文 参考訳(メタデータ) (2025-02-28T18:56:35Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。