論文の概要: Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
- arxiv url: http://arxiv.org/abs/2503.09642v1
- Date: Wed, 12 Mar 2025 05:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:43.535364
- Title: Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k
- Title(参考訳): Open-Sora 2.0:商用レベルのビデオ生成モデルを20万ドルでトレーニング
- Authors: Xiangyu Peng, Zangwei Zheng, Chenhui Shen, Tom Young, Xinying Guo, Binluo Wang, Hang Xu, Hongxin Liu, Mingyan Jiang, Wenjun Li, Yuhui Wang, Anbang Ye, Gang Ren, Qianran Ma, Wanying Liang, Xiang Lian, Xiwen Wu, Yuting Zhong, Zhuangyan Li, Chaoyu Gong, Guojun Lei, Leijun Cheng, Limin Zhang, Minghao Li, Ruijie Zhang, Silan Hu, Shijie Huang, Xiaokang Wang, Yuanheng Zhao, Yuqi Wang, Ziang Wei, Yang You,
- Abstract要約: 商用レベルのビデオ生成モデルであるOpen-Sora 2.0について紹介する。
トップパフォーマンスビデオ生成モデルのトレーニングコストは,高い制御性を有することを示す。
Open-Sora 2.0を完全にオープンソースにすることで、先進的なビデオ生成技術へのアクセスを民主化することを目指している。
- 参考スコア(独自算出の注目度): 39.475733412473154
- License:
- Abstract: Video generation models have achieved remarkable progress in the past year. The quality of AI video continues to improve, but at the cost of larger model size, increased data quantity, and greater demand for training compute. In this report, we present Open-Sora 2.0, a commercial-level video generation model trained for only $200k. With this model, we demonstrate that the cost of training a top-performing video generation model is highly controllable. We detail all techniques that contribute to this efficiency breakthrough, including data curation, model architecture, training strategy, and system optimization. According to human evaluation results and VBench scores, Open-Sora 2.0 is comparable to global leading video generation models including the open-source HunyuanVideo and the closed-source Runway Gen-3 Alpha. By making Open-Sora 2.0 fully open-source, we aim to democratize access to advanced video generation technology, fostering broader innovation and creativity in content creation. All resources are publicly available at: https://github.com/hpcaitech/Open-Sora.
- Abstract(参考訳): ビデオ生成モデルは、過去1年で顕著な進歩を遂げた。
AIビデオの品質は改善を続けているが、より大きなモデルサイズ、データ量の増加、トレーニング計算の需要の増大といったコストが伴う。
本稿では,商用レベルのビデオ生成モデルであるOpen-Sora 2.0について紹介する。
このモデルを用いて、最高性能のビデオ生成モデルのトレーニングコストが極めて制御可能であることを示す。
データキュレーション、モデルアーキテクチャ、トレーニング戦略、システム最適化など、この効率のブレークスルーに寄与するすべてのテクニックについて詳述する。
人間の評価結果とVBenchのスコアによると、Open-Sora 2.0は、オープンソースのHunyuanVideoやクローズドソースのRunway Gen-3 Alphaなど、グローバルにリードするビデオ生成モデルに匹敵する。
Open-Sora 2.0を完全にオープンソースにすることで、私たちは、高度なビデオ生成技術へのアクセスを民主化し、コンテンツ創造におけるより広範なイノベーションと創造性を育むことを目指しています。
すべてのリソースは、https://github.com/hpcaitech/Open-Soraで公開されています。
関連論文リスト
- VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - Open-Sora: Democratizing Efficient Video Production for All [15.68402186082992]
高忠実度ビデオコンテンツを作成するために設計された,オープンソースのビデオ生成モデルであるOpen-Soraを開発した。
Open-Soraは、テキスト・ツー・イメージ生成、テキスト・ツー・ビデオ生成、画像・ビデオ生成など、幅広いビジュアル生成タスクをサポートしている。
オープンソース原則を受け入れることで、Open-Soraはトレーニング/推論/データ準備コードとモデルウェイトへの完全なアクセスを民主化します。
論文 参考訳(メタデータ) (2024-12-29T08:52:49Z) - HunyuanVideo: A Systematic Framework For Large Video Generative Models [82.4392082688739]
HunyuanVideoは、革新的なオープンソースのビデオファンデーションモデルだ。
データキュレーション、高度なアーキテクチャ設計、プログレッシブモデルスケーリング、トレーニングが組み込まれている。
その結果,13億以上のパラメータを持つビデオ生成モデルの訓練に成功した。
論文 参考訳(メタデータ) (2024-12-03T23:52:37Z) - Open-Sora Plan: Open-Source Large Video Generation Model [48.475478021553755]
Open-Sora Planは,さまざまなユーザ入力に基づいて,望まれる高解像度ビデオを生成するための,大規模な生成モデルの提供を目的としたオープンソースプロジェクトである。
本プロジェクトは,Wavelet-Flow Variational Autoencoder,Joint Image-Video Skiparse Denoiser,各種コンディションコントローラなど,ビデオ生成プロセス全体のコンポーネントで構成されている。
我々のOpen-Sora Planは、効率的な思考から恩恵を受け、質的および定量的な評価において、印象的なビデオ生成結果を達成する。
論文 参考訳(メタデータ) (2024-11-28T14:07:45Z) - Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - The Dawn of Video Generation: Preliminary Explorations with SORA-like Models [14.528428430884015]
テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、ビデオ・トゥ・ビデオ(V2V)生成を含む高品質なビデオ生成は、コンテンツ作成においてかなりの重要性を持っている。
SORAのようなモデルでは、高解像度、より自然な動き、より良い視覚言語アライメント、コントロール可能性の向上といった高度なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-10-07T17:35:10Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。