論文の概要: Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model
- arxiv url: http://arxiv.org/abs/2504.08685v1
- Date: Fri, 11 Apr 2025 16:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 16:14:33.762228
- Title: Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model
- Title(参考訳): Seaweed-7B:ビデオ生成基礎モデルの費用効果訓練
- Authors: Team Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang,
- Abstract要約: 本技術報告は,映像生成基盤モデルをトレーニングするための費用効率のよい戦略を提示する。
約70億のパラメータを持つ中規模の研究モデルであるSeaweed-7Bを,665,000 H100 GPU時間を用いてスクラッチからトレーニングした。
適度な計算資源で訓練されているにもかかわらず、Seaweed-7Bは高い競争力を発揮している。
- 参考スコア(独自算出の注目度): 90.97590557247528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report presents a cost-efficient strategy for training a video generation foundation model. We present a mid-sized research model with approximately 7 billion parameters (7B) called Seaweed-7B trained from scratch using 665,000 H100 GPU hours. Despite being trained with moderate computational resources, Seaweed-7B demonstrates highly competitive performance compared to contemporary video generation models of much larger size. Design choices are especially crucial in a resource-constrained setting. This technical report highlights the key design decisions that enhance the performance of the medium-sized diffusion model. Empirically, we make two observations: (1) Seaweed-7B achieves performance comparable to, or even surpasses, larger models trained on substantially greater GPU resources, and (2) our model, which exhibits strong generalization ability, can be effectively adapted across a wide range of downstream applications either by lightweight fine-tuning or continue training. See the project page at https://seaweed.video/
- Abstract(参考訳): 本技術報告は,映像生成基盤モデルをトレーニングするための費用効率のよい戦略を提示する。
約70億のパラメータ (7B) を持つ中規模の研究モデルであるSeaweed-7Bを,665,000 H100 GPU時間を用いてスクラッチからトレーニングした。
適度な計算資源で訓練されているにもかかわらず、Seaweed-7Bは、より大規模な現代のビデオ生成モデルと比較して非常に競争力のある性能を示している。
リソース制約のある環境では、設計の選択が特に重要です。
本技術報告では, 中規模拡散モデルの性能向上に寄与する設計決定について述べる。
実証的な結果として,(1)Seaweed-7Bは,GPUリソースの大幅な向上を図った大規模モデルに匹敵する,あるいは超えた性能を実現し,(2)強力な一般化能力を示すモデルは,軽量な微調整や継続訓練によって,幅広い下流アプリケーションに効果的に適用できる。
プロジェクトページはhttps://seaweed.video/にある。
関連論文リスト
- Wan: Open and Advanced Large-Scale Video Generative Models [82.73750232976579]
Wanは、ビデオ生成の境界を推し進めるために設計された、ビデオファンデーションモデルのスイートである。
我々は、ソースコードやすべてのモデルを含む一連のWanをオープンソース化し、ビデオ生成コミュニティの成長を促進することを目的としています。
論文 参考訳(メタデータ) (2025-03-26T08:25:43Z) - Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。
Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。
本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T04:43:39Z) - Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - Apollo: An Exploration of Video Understanding in Large Multimodal Models [65.06400672040836]
本稿では,大規模マルチモーダルモデルにおいて映像理解を効果的に推進する要因を明らかにする研究について述べる。
われわれのモデルは、1時間の動画を効率よく知覚でき、Apollo-3Bは、LongVideoBenchの55.1で、既存の7ドルBのモデルよりも優れている。
Apollo-7B は 7B LMM に対して MLVU では 70.9 、 Video-MME では 63.3 である。
論文 参考訳(メタデータ) (2024-12-13T18:53:24Z) - The Dawn of Video Generation: Preliminary Explorations with SORA-like Models [14.528428430884015]
テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、ビデオ・トゥ・ビデオ(V2V)生成を含む高品質なビデオ生成は、コンテンツ作成においてかなりの重要性を持っている。
SORAのようなモデルでは、高解像度、より自然な動き、より良い視覚言語アライメント、コントロール可能性の向上といった高度なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-10-07T17:35:10Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to
Power Next-Generation AI Scale [27.684722514336546]
DeepSpeedライブラリの一部として,エンドツーエンドのMoEトレーニングおよび推論ソリューションであるDeepSpeed-MoEを紹介する。
DeepSpeed-MoEは、高品質の高密度モデルに比べて最大4.5倍高速で9倍の推論が可能な大規模なMoEモデルを提供するために、前例のないスケールと効率を提供する。
論文 参考訳(メタデータ) (2022-01-14T18:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。