論文の概要: Jigsaw: Training Multi-Billion-Parameter AI Weather Models with Optimized Model Parallelism
- arxiv url: http://arxiv.org/abs/2507.05753v1
- Date: Tue, 08 Jul 2025 07:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.737352
- Title: Jigsaw: Training Multi-Billion-Parameter AI Weather Models with Optimized Model Parallelism
- Title(参考訳): Jigsaw: 最適化モデル並列性によるマルチビリオンパラメータAI気象モデルのトレーニング
- Authors: Deifilia Kieckhefen, Markus Götz, Lars H. Heyen, Achim Streit, Charlotte Debus,
- Abstract要約: 複雑な大気力学の正確なモデリングには、大きなニューラルネットワークとギガバイトサイズのデータサンプルが必要である。
入力サイズに応じてワークロードを線形にスケールするマルチ層パーセプトロンアーキテクチャであるWeatherMixerを紹介する。
計算要求に対応するために,新しいモデル並列化方式であるJigsawを提案する。
- 参考スコア(独自算出の注目度): 0.08388591755871733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-based methods have revolutionized atmospheric forecasting, with recent successes in medium-range forecasting spurring the development of climate foundation models. Accurate modeling of complex atmospheric dynamics at high spatial resolutions and longer lead times requires large neural networks and gigabyte-sized data samples, making accelerator memory and I/O-bandwidth the bottlenecks for model training. We introduce WeatherMixer, a multi-layer-perceptron-based architecture whose workload scales linearly with input size, allowing the model to learn global weather phenomena at accuracies similar to numerical weather prediction. To cope with the computational demand, we propose Jigsaw, a novel model parallelization scheme that employs both domain and tensor parallelism, eliminating memory redundancy. Jigsaw exceeds state-of-the-art performance in strong scaling in compute-communication-limited systems and achieves superscalar weak scaling in I/O-bandwidth-limited systems. We scale training to 256 GPUs, reaching peak performances of 9 and 11 PFLOPs, 23% and 28% of theoretical peaks, achieving 68% and 72% scaling efficiency versus 51% without model parallelism.
- Abstract(参考訳): AIベースの手法は大気予測に革命をもたらし、近年の中距離予測の成功により、気候基盤モデルの開発が加速している。
空間分解能が高く、リード時間が長い複雑な大気力学の正確なモデリングには、大きなニューラルネットワークとギガバイトサイズのデータサンプルが必要であり、アクセルメモリとI/Oバンド幅がモデルトレーニングのボトルネックとなる。
マルチ層パーセプトロンアーキテクチャであるWeatherMixerを導入し,ワークロードを入力サイズに線形にスケールし,数値天気予報と同様の精度でグローバル気象現象を学習できるようにする。
計算要求に対処するため,ドメインとテンソルの並列性を利用した新しいモデル並列化方式であるJigsawを提案し,メモリ冗長性を排除した。
Jigsawは、計算通信に制限されたシステムにおける強力なスケーリングにおける最先端のパフォーマンスを超え、I/O帯域幅のシステムにおいて超スカラーの弱いスケーリングを実現する。
トレーニングを256GPUに拡張し、9と11のPFLOP、理論的ピークの23%と28%に到達し、68%と72%のスケーリング効率を達成した。
関連論文リスト
- Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - Decoupling Spatio-Temporal Prediction: When Lightweight Large Models Meet Adaptive Hypergraphs [12.867023510751787]
STH-SepNetは、時間的および空間的表現性を効率と精度の両方に分離する新しいフレームワークである。
S-SepNetは、現実世界のアプリケーションにおける時間予測のための実用的でスケーラブルなソリューションを提供する。
この作業は、計算要求の削減と予測性能の向上を目的とした、時間的予測のための有望な軽量フレームワークを提供する可能性がある。
論文 参考訳(メタデータ) (2025-05-26T07:37:39Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize
Mixture-of-Experts Training [13.346719319555943]
Mixture-of-Experts (MoE)は、ベースモデルにわずかにアクティベートされたエキスパートブロックを追加するニューラルネットワークアーキテクチャである。
現在の分散ディープラーニングフレームワークは、大規模なベースモデルで高品質なMoEモデルをトレーニングする能力に制限がある。
本稿では,データ,テンソル,エキスパート並列性を組み合わせた3次元ハイブリッド並列アルゴリズムDeepSpeed-TEDを提案する。
論文 参考訳(メタデータ) (2023-03-11T05:38:15Z) - Do We Really Need Deep Learning Models for Time Series Forecasting? [4.2698418800007865]
時系列予測は、幅広い応用があるため、機械学習において重要なタスクである。
ディープラーニングとマトリックスファクタリゼーションモデルは、より競争力のあるパフォーマンスで同じ問題に取り組むために最近提案されている。
本稿では,これらの高度に複雑なディープラーニングモデルが代替手段がないかどうかを問う。
論文 参考訳(メタデータ) (2021-01-06T16:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。