Fugu-MT 論文翻訳(概要): MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems

論文の概要: MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems

arxiv url: http://arxiv.org/abs/2310.02784v1
Date: Wed, 4 Oct 2023 13:00:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 14:58:43.674796
Title: MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems
Title（参考訳）: MAD Max Beyond Single-Node: 分散システム上での大規模機械学習モデル高速化の実現
Authors: Samuel Hsia, Alicia Golden, Bilge Acun-Uyan, Newsha Ardalani, Zachary DeVito, Gu-Yeon Wei, David Brooks, Carole-Jean Wu
Abstract要約: 全GPU時間の1432%が重複計算なしで通信に費やされていることを示す。並列化とハードウェア/ソフトウェアの共同設計戦略をガイドするアジャイルパフォーマンスモデリングフレームワークを開発した。
参考スコア（独自算出の注目度）: 6.775738005775793
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training and deploying large machine learning (ML) models is time-consuming and requires significant distributed computing infrastructures. Based on real-world large model training on datacenter-scale infrastructures, we show 14~32% of all GPU hours are spent on communication with no overlapping computation. To minimize the outstanding communication latency, in this work, we develop an agile performance modeling framework to guide parallelization and hardware-software co-design strategies. Using the suite of real-world large ML models on state-of-the-art GPU training hardware, we demonstrate 2.24x and 5.27x throughput improvement potential for pre-training and inference scenarios, respectively.
Abstract（参考訳）: 大規模機械学習(ml)モデルのトレーニングとデプロイは時間がかかり、重要な分散コンピューティング基盤を必要とする。データセンタ規模のインフラストラクチャ上の実世界の大規模モデルトレーニングに基づいて,gpu時間の14～32%がオーバーラップ処理なしで通信に費やされていることを示した。通信遅延を最小限に抑えるため,並列化とハードウェア・ソフトウェア共同設計戦略をガイドするアジャイルパフォーマンスモデリングフレームワークを開発した。最先端のGPUトレーニングハードウェア上で,実世界の大規模MLモデルのスイートを用いて,事前トレーニングシナリオと推論シナリオにおいて,それぞれ2.24倍,5.27倍のスループット向上の可能性を示す。

関連論文リスト

Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.13332839594069593]
大規模言語モデル(LLM)は、スケーラビリティ、効率性、コスト効率性を保証するために、データセンターアーキテクチャを根本的に再考する必要がある。我々の研究は、FLOPS、帯域幅とキャパシティ、複数のネットワークトポロジ、一般的な並列化/最適化戦略を共同で探求する包括的な協調設計フレームワークを提供する。私たちの発見は、実用的な洞察と、AIデータセンタを設計するための実践的なロードマップを提供します。
論文参考訳（メタデータ） (2025-06-17T22:29:37Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training [29.44470664154098]
ハードウェア構成と並列化戦略の注意深い検討が,モデルサイズ,トレーニングデータ,総計算の効果的なスケーリングに重要であることを示す。我々は、モデルサイズ、ハードウェア構成、分散並列化戦略における大規模LLMトレーニングワークロードの性能に関する広範な実証的研究を行う。
論文参考訳（メタデータ） (2024-11-20T06:05:11Z)
Photon: Federated LLM Pre-Training [17.368070785118654]
我々は、フェデレーション・エンド・ツー・エンドLLMトレーニングのための最初の完全システムであるPhotonを紹介する。我々は、Photonが7Bまでのモデルサイズをフェデレートでトレーニングできる一方で、集中的な事前トレーニングよりもさらに複雑であることを示す。
論文参考訳（メタデータ） (2024-11-05T08:48:25Z)
Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。 Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文参考訳（メタデータ） (2024-06-30T05:55:11Z)
Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文参考訳（メタデータ） (2024-04-19T07:20:33Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文参考訳（メタデータ） (2022-05-20T09:09:27Z)
Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文参考訳（メタデータ） (2021-03-12T00:22:50Z)
Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文参考訳（メタデータ） (2020-12-01T11:46:03Z)
A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文参考訳（メタデータ） (2020-08-10T06:07:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。