論文の概要: Training Report of TeleChat3-MoE
- arxiv url: http://arxiv.org/abs/2512.24157v1
- Date: Tue, 30 Dec 2025 11:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.369534
- Title: Training Report of TeleChat3-MoE
- Title(参考訳): TeleChat3-MoE の研修報告
- Authors: Xinzhang Liu, Chao Wang, Zhihao Yang, Zhuo Jiang, Xuncheng Zhao, Haoran Wang, Lei Li, Dongdong He, Luobin Liu, Kaizhe Yuan, Han Gao, Zihan Wang, Yitong Yao, Sishi Xiong, Wenmin Deng, Haowei He, Kaidong Yu, Yu Zhao, Ruiyu Fang, Yuhao Jiang, Yingyan Li, Xiaohui Hu, Xi Yu, Jingqi Li, Yanwei Liu, Qingli Li, Xinyu Shi, Junhao Niu, Chengnuo Huang, Yao Xiao, Ruiwen Wang, Fengkai Li, Luwen Pu, Kaipeng Jia, Fubei Yao, Yuyao Huang, Xuewei He, Zhuoru Jiang, Ruiting Song, Rui Xue, Qiyi Xie, Jie Zhang, Zilu Huang, Zhaoxi Zhang, Zhilong Lu, Yanhan Zhang, Yin Zhang, Yanlei Xue, Zhu Yuan, Teng Su, Xin Jiang, Shuangyong Song, Yongxiang Li, Xuelong Li,
- Abstract要約: この技術的レポートは、主に、フロンティアモデルサイズへの信頼性と効率的なスケーリングを可能にする、基礎となるトレーニングインフラストラクチャを提示する。
本稿では,ハードウェアプラットフォーム間の整合性を確保するため,演算子レベルとエンドツーエンドの数値検証精度の体系的手法を詳述する。
解析的推定と整数線形プログラミングを利用した並列化フレームワークも提案され,多次元並列化の構成を最適化する。
- 参考スコア(独自算出の注目度): 77.94641922160359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TeleChat3-MoE is the latest series of TeleChat large language models, featuring a Mixture-of-Experts (MoE) architecture with parameter counts ranging from 105 billion to over one trillion,trained end-to-end on Ascend NPU cluster. This technical report mainly presents the underlying training infrastructure that enables reliable and efficient scaling to frontier model sizes. We detail systematic methodologies for operator-level and end-to-end numerical accuracy verification, ensuring consistency across hardware platforms and distributed parallelism strategies. Furthermore, we introduce a suite of performance optimizations, including interleaved pipeline scheduling, attention-aware data scheduling for long-sequence training,hierarchical and overlapped communication for expert parallelism, and DVM-based operator fusion. A systematic parallelization framework, leveraging analytical estimation and integer linear programming, is also proposed to optimize multi-dimensional parallelism configurations. Additionally, we present methodological approaches to cluster-level optimizations, addressing host- and device-bound bottlenecks during large-scale training tasks. These infrastructure advancements yield significant throughput improvements and near-linear scaling on clusters comprising thousands of devices, providing a robust foundation for large-scale language model development on hardware ecosystems.
- Abstract(参考訳): TeleChat3-MoEはTeleChatの大規模言語モデルの最新シリーズで、Mixture-of-Experts(MoE)アーキテクチャを備え、パラメータカウントは1050億から1兆以上のトレーニング済みエンドツーエンドのAscend NPUクラスタである。
この技術的レポートは、主に、フロンティアモデルサイズへの信頼性と効率的なスケーリングを可能にする、基礎となるトレーニングインフラストラクチャを提示する。
本稿では,演算子レベルとエンドツーエンドの数値精度検証,ハードウェアプラットフォーム間の整合性の確保,分散並列化戦略の体系的手法について述べる。
さらに、インターリーブパイプラインスケジューリング、長期トレーニングのためのアテンションアウェアデータスケジューリング、エキスパート並列処理のための階層的および重複的な通信、DVMベースの演算子融合など、一連のパフォーマンス最適化も導入する。
解析的推定と整数線形プログラミングを利用した並列化フレームワークも提案され,多次元並列化の構成を最適化する。
さらに,大規模トレーニングタスクにおけるホストとデバイスバウンドのボトルネックに対処する,クラスタレベルの最適化に対する方法論的アプローチを提案する。
これらのインフラストラクチャの進歩は、数千のデバイスからなるクラスタ上での大幅なスループット向上とニアリニアスケーリングをもたらし、ハードウェアエコシステム上での大規模言語モデル開発の堅牢な基盤を提供する。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Research on Model Parallelism and Data Parallelism Optimization Methods in Large Language Model-Based Recommendation Systems [6.453224262551299]
推薦システムにおける大規模言語モデル (LLM) はますます顕著になっている。
本稿では,最適化手法の2つのクラス,モデル並列性とデータ並列性について系統的に検討する。
シミュレーションサービス環境における実世界のレコメンデーションデータセットを用いて行った実験は、提案したハイブリッド並列化スキームがトレーニングスループットを30%以上向上することを示した。
論文 参考訳(メタデータ) (2025-06-21T02:37:25Z) - Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.6168147650666682]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。
我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。
我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - Automatic Operator-level Parallelism Planning for Distributed Deep Learning -- A Mixed-Integer Programming Approach [6.449961842220686]
本稿では,最適性と計算効率のバランスをとる二段階のソリューションフレームワークを提案する。
我々のフレームワークは、同等または優れた性能を実現し、同じメモリ制約下で計算バブルを半分に減らします。
このような能力は、最適な並列化戦略を探求するための貴重な研究ツールであり、大規模なAIデプロイメントのための実践的な産業ソリューションである。
論文 参考訳(メタデータ) (2025-03-12T13:00:29Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。