論文の概要: Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design
- arxiv url: http://arxiv.org/abs/2511.17127v1
- Date: Fri, 21 Nov 2025 10:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.974652
- Title: Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design
- Title(参考訳): フルスタックAMDプラットフォーム上でのトレーニング基礎モデル:計算,ネットワーク,システム設計
- Authors: Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge,
- Abstract要約: 本報告では,AMDハードウェアの大規模混合実験(MoE)事前学習について報告する。
システムとモデル設計の両方の実用的なガイダンスを精査する。
ZAYA1ベースの性能は、Qwen3-4BやGemma3-12Bのような主要なベースモデルに匹敵する。
- 参考スコア(独自算出の注目度): 26.12152103450326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.
- Abstract(参考訳): 本報告では,Pollara相互接続を用いたMI300X GPUを用いたAMDハードウェアの大規模混合実験(MoE)事前学習について報告する。
システムとモデル設計の両方の実用的なガイダンスを精査する。
システム側では、全コア集合(全リデュース、リデュース、全ガター、ブロードキャスト)に対するマイクロベンチマークと、Pollara上のGPUカウントという、包括的なクラスタとネットワークの特徴を提供します。
私たちの知る限りでは、この規模ではこれが初めてです。
さらに、カーネルサイズとメモリ帯域幅に関するMI300Xマイクロベンチマークを提供し、モデル設計を通知する。
モデリングの面では、MI300X対応トランスフォーマーを導入して、注意とMLPブロックのルールをカスタマイズし、トレーニングスループットと推論遅延を最適化するMoE幅を正当化する。
当社のトレーニングスタックについて,フォールトトレランスやチェックポイント・リフォームといった,無視されることが多いユーティリティや,トレーニングレシピに関する詳細な情報など,詳細に説明します。
モデルアーキテクチャとベースモデル - ZAYA1 (アクティブ760M、総パラメータ8.3B) - のプレビューも提供しています。
ZAYA1ベースは、Qwen3-4BやGemma3-12Bのような主要なベースモデルに匹敵するパフォーマンスを達成し、推論、数学、コーディングベンチマークでLlama-3-8BやOLMoEなどのモデルより優れている。
これらの結果から,AMDハードウェア,ネットワーク,ソフトウェアスタックは,競争力のある大規模事前学習に十分なほど成熟し,最適化されていることが示された。
関連論文リスト
- Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - 2 OLMo 2 Furious [154.15728448754854]
我々は、私たちの完全にオープンな言語の次世代モデルであるOLMo 2を紹介します。
OLMo 2は、7B、13B、32Bスケールの高密度な自己回帰言語モデルを含む。
修正されたモデルアーキテクチャとトレーニングレシピについて説明する。
論文 参考訳(メタデータ) (2024-12-31T21:55:10Z) - Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。
この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。
このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文 参考訳(メタデータ) (2023-10-04T13:00:53Z) - MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。
具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。
単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。