論文の概要: Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design
- arxiv url: http://arxiv.org/abs/2511.17127v1
- Date: Fri, 21 Nov 2025 10:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.974652
- Title: Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design
- Title(参考訳): フルスタックAMDプラットフォーム上でのトレーニング基礎モデル:計算,ネットワーク,システム設計
- Authors: Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge,
- Abstract要約: 本報告では,AMDハードウェアの大規模混合実験(MoE)事前学習について報告する。
システムとモデル設計の両方の実用的なガイダンスを精査する。
ZAYA1ベースの性能は、Qwen3-4BやGemma3-12Bのような主要なベースモデルに匹敵する。
- 参考スコア(独自算出の注目度): 26.12152103450326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.
- Abstract(参考訳): 本報告では,Pollara相互接続を用いたMI300X GPUを用いたAMDハードウェアの大規模混合実験(MoE)事前学習について報告する。
システムとモデル設計の両方の実用的なガイダンスを精査する。
システム側では、全コア集合(全リデュース、リデュース、全ガター、ブロードキャスト)に対するマイクロベンチマークと、Pollara上のGPUカウントという、包括的なクラスタとネットワークの特徴を提供します。
私たちの知る限りでは、この規模ではこれが初めてです。
さらに、カーネルサイズとメモリ帯域幅に関するMI300Xマイクロベンチマークを提供し、モデル設計を通知する。
モデリングの面では、MI300X対応トランスフォーマーを導入して、注意とMLPブロックのルールをカスタマイズし、トレーニングスループットと推論遅延を最適化するMoE幅を正当化する。
当社のトレーニングスタックについて,フォールトトレランスやチェックポイント・リフォームといった,無視されることが多いユーティリティや,トレーニングレシピに関する詳細な情報など,詳細に説明します。
モデルアーキテクチャとベースモデル - ZAYA1 (アクティブ760M、総パラメータ8.3B) - のプレビューも提供しています。
ZAYA1ベースは、Qwen3-4BやGemma3-12Bのような主要なベースモデルに匹敵するパフォーマンスを達成し、推論、数学、コーディングベンチマークでLlama-3-8BやOLMoEなどのモデルより優れている。
これらの結果から,AMDハードウェア,ネットワーク,ソフトウェアスタックは,競争力のある大規模事前学習に十分なほど成熟し,最適化されていることが示された。
関連論文リスト
- INTELLECT-3: Technical Report [5.3998786788822]
INTELLECT-3は、大規模な強化学習で訓練されたMixture-of-Expertsモデル(12Bアクティブ)である。
私たちは、RLフレームワークを含む、モデルを作成するのに使用される完全なインフラストラクチャスタックとともに、モデルをオープンソースにしています。
大規模非同期強化学習のためのオープンフレームワークである Prime-rl を紹介する。
論文 参考訳(メタデータ) (2025-12-18T03:57:01Z) - Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM [11.87842612818933]
大規模言語モデル(LLM)の訓練は、高性能コンピューティングにおける最も計算集約的なタスクの1つである。
我々は、数百のGPUに分散したマルチビリオンパラメータモデルのエンドツーエンドトレーニング時間を予測するためのフレームワークを提案する。
われわれのフレームワークは、Perlmutter(A100)で4.98%、Vista(GH200)で9.38%の低平均予測誤差を128GPUで20Bパラメータまで達成している。
論文 参考訳(メタデータ) (2025-09-26T18:38:25Z) - MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining [60.02032710118597]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。
MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。
最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-12T14:30:11Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - 2 OLMo 2 Furious [154.15728448754854]
我々は、私たちの完全にオープンな言語の次世代モデルであるOLMo 2を紹介します。
OLMo 2は、7B、13B、32Bスケールの高密度な自己回帰言語モデルを含む。
修正されたモデルアーキテクチャとトレーニングレシピについて説明する。
論文 参考訳(メタデータ) (2024-12-31T21:55:10Z) - OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [67.37017498784748]
視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。
提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。
この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。
このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文 参考訳(メタデータ) (2023-10-04T13:00:53Z) - MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。
具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。
単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。