論文の概要: Collective Communication for 100k+ GPUs
- arxiv url: http://arxiv.org/abs/2510.20171v3
- Date: Mon, 03 Nov 2025 23:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.5056
- Title: Collective Communication for 100k+ GPUs
- Title(参考訳): 100k以上のGPUのための集合通信
- Authors: Min Si, Pavan Balaji, Yongzhou Chen, Ching-Hsiang Chu, Adi Gangidi, Saif Hasan, Subodh Iyengar, Dan Johnson, Bingzhe Liu, Regina Ren, Ashmitha Jeevaraj Shetty, Greg Steinbrecher, Yulun Wang, Bruce Wu, Xinfeng Xie, Jingyi Yang, Mingran Yang, Kenny Yu, Minlan Yu, Cen Zhao, Wes Bland, Denis Boyda, Suman Gumudavelli, Prashanth Kannan, Cristian Lumezanu, Rui Miao, Zhe Qu, Venkat Ramesh, Maxim Samoylov, Jan Seidel, Srikanth Sundaresan, Feng Tian, Qiye Tan, Shuqiang Zhang, Yimeng Zhao, Shengbao Zheng, Art Zhu, Hongyi Zeng,
- Abstract要約: 本稿では,Metaで開発されたNCCLX集合通信フレームワークについて述べる。
このフレームワークは、クラスタ上の10000以上のGPU上の複雑なワークロードをサポートするように設計されている。
Llama4モデルの実証的な評価は、通信効率を大幅に改善したことを示している。
- 参考スコア(独自算出の注目度): 12.034443496293845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing scale of large language models (LLMs) necessitates highly efficient collective communication frameworks, particularly as training workloads extend to hundreds of thousands of GPUs. Traditional communication methods face significant throughput and latency limitations at this scale, hindering both the development and deployment of state-of-the-art models. This paper presents the NCCLX collective communication framework, developed at Meta, engineered to optimize performance across the full LLM lifecycle, from the synchronous demands of large-scale training to the low-latency requirements of inference. The framework is designed to support complex workloads on clusters exceeding 100,000 GPUs, ensuring reliable, high-throughput, and low-latency data exchange. Empirical evaluation on the Llama4 model demonstrates substantial improvements in communication efficiency. This research contributes a robust solution for enabling the next generation of LLMs to operate at unprecedented scales.
- Abstract(参考訳): 大規模言語モデル(LLM)の大規模化は、特にトレーニングワークロードが数十万のGPUに拡張されるにつれて、非常に効率的な集合通信フレームワークを必要とします。
従来の通信方式は、このスケールで大きなスループットとレイテンシの制限に直面しており、最先端のモデルの開発とデプロイを妨げている。
本稿では,大規模学習の同期要求から推論の低レイテンシ要求まで,LLMライフサイクル全体のパフォーマンスを最適化するためにMetaで開発されたNCCLX集合通信フレームワークを提案する。
このフレームワークは、クラスタ上の10000以上のGPU上の複雑なワークロードをサポートし、信頼性、高スループット、低レイテンシデータ交換を保証するように設計されている。
Llama4モデルの実証的な評価は、通信効率を大幅に改善したことを示している。
この研究は、次世代のLLMを前例のない規模で運用可能にするための堅牢なソリューションに寄与する。
関連論文リスト
- CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Training [32.575669924032276]
強化学習(RL)は、大規模言語モデル(LLM)の能力向上のための訓練後の最も効果的なアプローチとなっている。
本稿では,LlamaRLについて述べる。LlamaRLは大規模LLMの効率的なトレーニングに最適化された,完全に分散された非同期RLフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T22:14:15Z) - AmorLIP: Efficient Language-Image Pretraining via Amortization [52.533088120633785]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。
軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文 参考訳(メタデータ) (2025-05-25T05:30:37Z) - Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts [8.80408909878008]
Mixture-of-experts (MoE) は、大規模な言語モデルを1兆以上のパラメータに拡張するために広く利用されている。
既存の方法は、オーバーラップする計算でMoE層内の通信をパイプライン化することを提案している。
細粒度通信-計算オーバラップを最適化したMOEシステムであるCOMETを提案する。
論文 参考訳(メタデータ) (2025-02-27T06:36:45Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。