論文の概要: Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs
- arxiv url: http://arxiv.org/abs/2504.07866v2
- Date: Fri, 11 Apr 2025 07:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 10:55:43.288881
- Title: Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs
- Title(参考訳): Pangu Ultra: 拡張NPUにおける高密度大言語モデルの限界を押し上げる
- Authors: Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu,
- Abstract要約: 135億のパラメータと高密度トランスフォーマーモジュールを持つ大規模言語モデル(LLM)であるPangu Ultraについて述べる。
このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。
我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
- 参考スコア(独自算出の注目度): 123.25404278506585
- License:
- Abstract: We present Pangu Ultra, a Large Language Model (LLM) with 135 billion parameters and dense Transformer modules trained on Ascend Neural Processing Units (NPUs). Although the field of LLM has been witnessing unprecedented advances in pushing the scale and capability of LLM in recent years, training such a large-scale model still involves significant optimization and system challenges. To stabilize the training process, we propose depth-scaled sandwich normalization, which effectively eliminates loss spikes during the training process of deep models. We pre-train our model on 13.2 trillion diverse and high-quality tokens and further enhance its reasoning capabilities during post-training. To perform such large-scale training efficiently, we utilize 8,192 Ascend NPUs with a series of system optimizations. Evaluations on multiple diverse benchmarks indicate that Pangu Ultra significantly advances the state-of-the-art capabilities of dense LLMs such as Llama 405B and Mistral Large 2, and even achieves competitive results with DeepSeek-R1, whose sparse model structure contains much more parameters. Our exploration demonstrates that Ascend NPUs are capable of efficiently and effectively training dense models with more than 100 billion parameters. Our model and system will be available for our commercial customers.
- Abstract(参考訳): 135億のパラメータと高密度トランスフォーマーモジュールをアセンドニューラルプロセッシングユニット(NPU)でトレーニングした大言語モデル(LLM)であるPangu Ultraを提案する。
LLMの分野は近年,LLMの規模や能力向上に先例のない進歩を遂げてきたが,そのような大規模モデルの訓練には,依然として大きな最適化とシステム課題が伴っている。
トレーニングプロセスの安定化を図るため,深層モデルのトレーニング過程における損失スパイクを効果的に除去する深部スケールサンドイッチ正規化を提案する。
我々は13.2兆の多様で高品質なトークンでモデルを事前訓練し、ポストトレーニング時の推論能力をさらに強化する。
このような大規模トレーニングを効率的に行うためには,8,192個のAscend NPUと一連のシステム最適化を用いる。
複数の多種多様なベンチマークによる評価は、Pangu UltraがLlama 405BやMistral Large 2のような高密度LLMの最先端能力を著しく向上し、スパースモデル構造がはるかに多くのパラメータを含むDeepSeek-R1との競合結果さえ達成していることを示している。
我々の調査では、Ascend NPUは1000億以上のパラメータを持つ高密度モデルを効率的かつ効果的に訓練できることを示した。
当社のモデルとシステムは、当社の商用顧客向けに提供されます。
関連論文リスト
- Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。
本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。
Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B) はLlama-3.1-70B-Instructから派生した一般公開モデルである。
論文 参考訳(メタデータ) (2024-11-28T13:45:42Z) - MegaScale: Scaling Large Language Model Training to More Than 10,000
GPUs [30.034205048718885]
この規模での大規模言語モデル(LLM)のトレーニングは、効率性と安定性のトレーニングに前例のない課題をもたらします。
モデルブロック全体にわたってアルゴリズムとシステムコンポーネントを共同設計するフルスタックアプローチを採用しています。
システムコンポーネントやイベントをスタックの奥深くで監視し,根本原因を特定し,耐障害性を実現し,トラグラーを緩和する効果的な手法を考案する。
論文 参考訳(メタデータ) (2024-02-23T22:10:59Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Large-Scale Training System for 100-Million Classification at Alibaba [43.58719630882661]
極度の分類は 深層学習に欠かせない話題になっています
最後の出力層におけるメモリと爆発のため、数百万のクラスでディープモデルをトレーニングするのは非常に困難です。
トレーニングプロセスを実現可能にするために、ハイブリッド並列トレーニングフレームワークを構築しています。
第2に,GPUメモリ使用量と計算コストの両方を削減するKNNソフトマックスという新しいソフトマックス変種を提案する。
論文 参考訳(メタデータ) (2021-02-09T06:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。