Fugu-MT 論文翻訳(概要): MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

論文の概要: MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

arxiv url: http://arxiv.org/abs/2402.15627v1
Date: Fri, 23 Feb 2024 22:10:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 17:38:46.597556
Title: MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs
Title（参考訳）: MegaScale: 大規模言語モデルのトレーニングを10,000以上のGPUに拡張
Authors: Ziheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen, Zhi Zhang, Yanghua Peng, Xiang Li, Cong Xie, Shibiao Nong, Yulu Jia, Sun He, Hongmin Chen, Zhihao Bai, Qi Hou, Shipeng Yan, Ding Zhou, Yiyao Sheng, Zhuo Jiang, Haohan Xu, Haoran Wei, Zhang Zhang, Pengfei Nie, Leqi Zou, Sida Zhao, Liang Xiang, Zherui Liu, Zhe Li, Xiaoying Jia, Jianxi Ye, Xin Jin, Xin Liu
Abstract要約: この規模での大規模言語モデル(LLM)のトレーニングは、効率性と安定性のトレーニングに前例のない課題をもたらします。モデルブロック全体にわたってアルゴリズムとシステムコンポーネントを共同設計するフルスタックアプローチを採用しています。システムコンポーネントやイベントをスタックの奥深くで監視し,根本原因を特定し,耐障害性を実現し,トラグラーを緩和する効果的な手法を考案する。
参考スコア（独自算出の注目度）: 30.034205048718885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the design, implementation and engineering experience in building and deploying MegaScale, a production system for training large language models (LLMs) at the scale of more than 10,000 GPUs. Training LLMs at this scale brings unprecedented challenges to training efficiency and stability. We take a full-stack approach that co-designs the algorithmic and system components across model block and optimizer design, computation and communication overlapping, operator optimization, data pipeline, and network performance tuning. Maintaining high efficiency throughout the training process (i.e., stability) is an important consideration in production given the long extent of LLM training jobs. Many hard stability issues only emerge at large scale, and in-depth observability is the key to address them. We develop a set of diagnosis tools to monitor system components and events deep in the stack, identify root causes, and derive effective techniques to achieve fault tolerance and mitigate stragglers. MegaScale achieves 55.2% Model FLOPs Utilization (MFU) when training a 175B LLM model on 12,288 GPUs, improving the MFU by 1.34x compared to Megatron-LM. We share our operational experience in identifying and fixing failures and stragglers. We hope by articulating the problems and sharing our experience from a systems perspective, this work can inspire future LLM systems research.
Abstract（参考訳）: 大規模言語モデル(llms)を1万以上のgpu規模でトレーニングするためのプロダクションシステムであるmegascaleの構築とデプロイにおいて,設計,実装,エンジニアリング経験を紹介する。この規模でのトレーニングllmは、トレーニング効率と安定性に前例のない課題をもたらします。我々は,モデルブロックとオプティマイザ設計,計算と通信の重複,オペレータ最適化,データパイプライン,ネットワークパフォーマンスチューニングといったアルゴリズムとシステムコンポーネントを共設計するフルスタックアプローチを採用する。トレーニングプロセス全体(すなわち安定性)を通して高い効率を維持することは、LLMトレーニングジョブの長期性を考えると、生産において重要な考慮事項である。多くのハードな安定性の問題が大規模にのみ発生し、その対処の鍵は深い可観測性にある。システムコンポーネントやイベントをスタックの奥深くで監視し,根本原因を特定し,耐障害性を実現し,トラグラーを緩和する効果的な手法を考案する。 MegaScaleは、12,288GPUで175B LLMモデルをトレーニングする際に55.2%のモデルFLOP(MFU)を実現し、Megatron-LMと比較してMFUを1.34倍改善した。障害とトラグラーの特定と修正における運用経験を共有しています。問題を明確にし、システムの観点から経験を共有することで、この研究が将来のLLMシステム研究を刺激することを期待しています。

関連論文リスト

MegaScale-MoE: Large-Scale Communication-Efficient Training of Mixture-of-Experts Models in Production [24.30045479566024]
本稿では,大規模混合実験(MoE)モデルの効率的なトレーニングに適した生産システムであるMegaScale-MoEについて述べる。 MegaScale-MoEは、各MoE層における注意とFFNのための通信効率の戦略をカスタマイズする。 MegaScale-MoEは1.41Mトークン/秒のトレーニングスループットを実現し、Megatron-LMと比較して1.88$timesの効率向上を実現している。
論文参考訳（メタデータ） (2025-05-16T16:52:16Z)
Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs [123.25404278506585]
135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
論文参考訳（メタデータ） (2025-04-10T15:41:51Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文参考訳（メタデータ） (2025-02-12T06:05:52Z)
Revisiting Reliability in Large-Scale Machine Learning Research Clusters [5.028600213808539]
信頼性は、大規模な機械学習インフラストラクチャを操作する上での根本的な課題である。インフラストラクチャ障害に関する何十年もの研究にもかかわらず、さまざまなスケールでのジョブ障害の影響は、まだ不明である。本稿では,2つの大規模マルチテナントMLクラスタを管理する視点について述べる。
論文参考訳（メタデータ） (2024-10-29T03:02:53Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
The Future of Large Language Model Pre-training is Federated [15.237418036900582]
我々は,LLM事前学習のための新しいトレーニングパラダイムの調査と開発を可能にする,Photonと呼ばれるスケーラブルなデプロイメントシステムを提案する。数十億のパラメータを持つLCMを事前学習するために、プライベートデータソースと計算資源とのコラボレーションに関心のある組織がPhotonを利用できることを示す。さらに,モデルサイズによるフェデレーショントレーニング尺度の有効性を示すとともに,限られた資源を用いて数十億規模のフェデレーションLLMをトレーニングするためのアプローチを提案する。
論文参考訳（メタデータ） (2024-05-17T15:27:52Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。 4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文参考訳（メタデータ） (2023-05-22T22:07:50Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。