論文の概要: ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training
- arxiv url: http://arxiv.org/abs/2605.24326v1
- Date: Sat, 23 May 2026 01:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.935491
- Title: ScaleAcross Explorer: Exploring Communication Optimization for Scale-Across AI Model Training
- Title(参考訳): ScaleAcross Explorer: スケールアクロスAIモデルトレーニングのためのコミュニケーション最適化
- Authors: Minghao Li, Alicia Golden, Samuel Hsia, Michael Kuchnik, Adi Gangidi, Xu Zhang, Ashmitha Jeevaraj Shetty, Zachary DeVito, Weiwei Chu, Dong He, Haoci Zhang, Yuchen Hao, Ruoming Pang, James Hongyi Zeng, Ying Zhang, Minlan Yu, Carole-Jean Wu,
- Abstract要約: 大規模な言語モデルトレーニングでは、複数のデータセンタの建物やリージョンにGPUリソースを分散する必要がある。
このようなパラダイムを"スケールアクロス"トレーニングと呼んでいる。
テストベッド実験とシミュレーションでは、生産構成に対する64.62%のトレーニングスピードアップと、幅広い設計点にわたる最先端のベースラインに対する最大37.59%のトレーニングスピードアップが示されている。
- 参考スコア(独自算出の注目度): 16.44505187326879
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid scaling of large language model training requires distributing GPU resources across multiple data center buildings and regions. We refer to such paradigm as "scale-across" training. As infrastructure expands, the system design space becomes increasingly intricate, encompassing new model architectures, hardware heterogeneity, and evolving communication patterns. Drawing from Meta's production experience, we highlight the complexities of deploying training jobs across a few data centers housing hundreds of thousands of GPUs. To accelerate exploration of the large design space and to enable efficient training for frontier model development, we conduct in-depth characterization of three key design dimensions: parallelism placement, parallelism scheduling, and network layer technologies. We then propose ScaleAcross Explorer, an optimizer that considers the interplay of design dimensions and holistically optimizes scale-across training. Testbed experiments and simulations demonstrate up to 64.62% training speedups over production configuration and up to 37.59% training speedups over the state-of-the-art baseline across a wide range of design points.
- Abstract(参考訳): 大規模な言語モデルトレーニングの迅速なスケーリングには、複数のデータセンタの建物やリージョンにGPUリソースを分散する必要がある。
このようなパラダイムを"スケールアクロス"トレーニングと呼んでいる。
インフラが拡大するにつれて、新しいモデルアーキテクチャ、ハードウェアの不均一性、進化する通信パターンを含む、システム設計空間が複雑化する。
Metaのプロダクションエクスペリエンスから、数十万のGPUを収容するいくつかのデータセンタにトレーニングジョブをデプロイする複雑さを強調します。
大規模な設計空間の探索を加速し,フロンティアモデル開発のための効率的なトレーニングを可能にするために,並列性配置,並列性スケジューリング,ネットワーク層技術という3つの重要な設計次元を詳細に評価する。
次に、設計次元の相互作用を考慮し、スケールアクロストレーニングを均等に最適化するオプティマイザであるScaleAcross Explorerを提案する。
テストベッド実験とシミュレーションでは、生産構成に対する64.62%のトレーニングスピードアップと、幅広い設計点にわたる最先端のベースラインに対する最大37.59%のトレーニングスピードアップが示されている。
関連論文リスト
- Training Report of TeleChat3-MoE [77.94641922160359]
この技術的レポートは、主に、フロンティアモデルサイズへの信頼性と効率的なスケーリングを可能にする、基礎となるトレーニングインフラストラクチャを提示する。
本稿では,ハードウェアプラットフォーム間の整合性を確保するため,演算子レベルとエンドツーエンドの数値検証精度の体系的手法を詳述する。
解析的推定と整数線形プログラミングを利用した並列化フレームワークも提案され,多次元並列化の構成を最適化する。
論文 参考訳(メタデータ) (2025-12-30T11:42:14Z) - SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding [64.86119288520419]
マルチモーダル言語モデルは時間と空間の空間的推論に苦しむ。
SIMS-Vは3次元シミュレータの特権情報を利用するシステムデータ生成フレームワークである。
提案手法は,実世界の空間的タスクの具体的改善を図りながら,一般的な映像理解の性能を維持しながら,堅牢な一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T18:53:31Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Communication Optimization for Distributed Training: Architecture, Advances, and Opportunities [4.444597313251626]
分散ディープニューラルネットワークトレーニングの一般的なアーキテクチャを導入し、並列化戦略、集合通信ライブラリ、ネットワーク間の関係を分析する。
現在の3層パラダイムのレイヤは比較的独立しており、分散トレーニングシナリオにおいて、層間協調最適化のためのリッチな設計スペースがあることに気付きました。
論文 参考訳(メタデータ) (2024-03-12T12:15:57Z) - MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。
この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。
このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文 参考訳(メタデータ) (2023-10-04T13:00:53Z) - CompOFA: Compound Once-For-All Networks for Faster Multi-Platform
Deployment [1.433758865948252]
CompOFAは、精度レイテンシフロンティアに近いモデルに対する検索を制限します。
簡単な実験であっても、トレーニング時間の2倍の短縮とモデル探索/抽出時間の216倍の高速化を実現できることを実証する。
論文 参考訳(メタデータ) (2021-04-26T15:10:48Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。