Fugu-MT 論文翻訳(概要): Exploring Multi-dimensional Hierarchical Network Topologies for Efficient Distributed Training of Trillion Parameter DL Models

論文の概要: Exploring Multi-dimensional Hierarchical Network Topologies for Efficient Distributed Training of Trillion Parameter DL Models

arxiv url: http://arxiv.org/abs/2109.11762v1
Date: Fri, 24 Sep 2021 06:22:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-27 14:02:53.480924
Title: Exploring Multi-dimensional Hierarchical Network Topologies for Efficient Distributed Training of Trillion Parameter DL Models
Title（参考訳）: 数兆パラメータdlモデルの効率的な分散トレーニングのための多次元階層ネットワークトポロジの探索
Authors: William Won, Saeed Rashidi, Sudarshan Srinivasan, Tushar Krishna
Abstract要約: 高性能分散トレーニングプラットフォームは、ネットワークのさまざまなレベルを通じてアクセラレータを相互接続する多次元階層ネットワークを活用する必要がある。本稿では、トレーニングプラットフォームにおいて、より中間的なネットワーク次元を追加することが、高価なNICリソースの過剰使用を効果的に軽減する上で有益であるという事実を動機づける。
参考スコア（独自算出の注目度）: 2.695466667982714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Neural Networks have gained significant attraction due to their wide applicability in different domains. DNN sizes and training samples are constantly growing, making training of such workloads more challenging. Distributed training is a solution to reduce the training time. High-performance distributed training platforms should leverage multi-dimensional hierarchical networks, which interconnect accelerators through different levels of the network, to dramatically reduce expensive NICs required for the scale-out network. However, it comes at the expense of communication overhead between distributed accelerators to exchange gradients or input/output activation. In order to allow for further scaling of the workloads, communication overhead needs to be minimized. In this paper, we motivate the fact that in training platforms, adding more intermediate network dimensions is beneficial for efficiently mitigating the excessive use of expensive NIC resources. Further, we address different challenges of the DNN training on hierarchical networks. We discuss when designing the interconnect, how to distribute network bandwidth resources across different dimensions in order to (i) maximize BW utilization of all dimensions, and (ii) minimizing the overall training time for the target workload. We then implement a framework that, for a given workload, determines the best network configuration that maximizes performance, or performance-per-cost.
Abstract（参考訳）: ディープニューラルネットワークは、異なるドメインで適用可能なため、大きな注目を集めている。 DNNのサイズとトレーニングサンプルは絶えず増加しており、そのようなワークロードのトレーニングをより困難にしている。分散トレーニングは、トレーニング時間を短縮するためのソリューションです。高性能分散トレーニングプラットフォームは、ネットワークのさまざまなレベルを通じてアクセラレータを相互接続する多次元階層ネットワークを活用して、スケールアウトネットワークに必要な高価なNICを劇的に削減する必要がある。しかし、勾配や入出力アクティベーションを交換する分散アクセラレータ間の通信オーバーヘッドを犠牲にしている。ワークロードのさらなるスケーリングを可能にするためには、通信オーバーヘッドを最小限にする必要がある。本稿では,トレーニングプラットフォームにおいて,高コストnicリソースの過剰使用を効果的に緩和するために,中間ネットワーク次元の追加が有効であることを動機づける。さらに,階層ネットワークにおけるDNNトレーニングの課題にも対処する。我々は、相互接続の設計時、ネットワーク帯域幅のリソースを異なる次元に分散する方法について議論する。 (i)全次元のbw利用を最大化すること、及び (ii)目標作業負荷の総合訓練時間を最小化する。そして、あるワークロードに対して、パフォーマンスやコスト当たりのパフォーマンスを最大化する最適なネットワーク構成を決定するフレームワークを実装します。

関連論文リスト

Flow-Through Tensors: A Unified Computational Graph Architecture for Multi-Layer Transportation Network Optimization [20.685856719515026]
Flow Throughs (FTT) は、原点のフロー、経路、確率、およびリンク移動時間を相互接続テンソルとして接続する統一的な計算グラフアーキテクチャである。まず、以前に分離されたモデリング要素間で勾配に基づく最適化を可能にする一貫した数学的構造を確立する。第2に、システム効率の正確な定量化により、時間、空間、ユーザグループのトラフィックパターンの多次元解析をサポートする。
論文参考訳（メタデータ） (2025-06-30T06:42:23Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Federated Split Learning with Model Pruning and Gradient Quantization in Wireless Networks [7.439160287320074]
Federated split learning (FedSL)は、モデル分割によるエッジデバイスとサーバ間の協調トレーニングを実装している。本稿では,リソース制約のあるエッジデバイスのトレーニング負担を軽減する軽量なFedSL方式を提案する。提案手法の収束性能を定量化するために理論的解析を行う。
論文参考訳（メタデータ） (2024-12-09T11:43:03Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
RTF-Q: Efficient Unsupervised Domain Adaptation with Retraining-free Quantization [14.447148108341688]
ReTraining-Free Quantization (RTF-Q) を用いた効率的な非教師なし領域適応法を提案する。提案手法では,計算コストの異なる低精度量子化アーキテクチャを用い,動的予算を持つデバイスに適用する。提案するネットワークは,3つのベンチマークにおける最先端手法との競合精度を実証する。
論文参考訳（メタデータ） (2024-08-11T11:53:29Z)
RL-MUL 2.0: Multiplier Design Optimization with Parallel Deep Reinforcement Learning and Space Reduction [8.093985979285533]
強化学習に基づく乗算器設計最適化フレームワークを提案する。行列とテンソル表現を乗算器の圧縮木に用いて,畳み込みニューラルネットワークをエージェントネットワークとしてシームレスに統合する。異なるビット幅の乗算器を用いた実験により, 提案手法により生成した乗算器は, 面積, パワー, 遅延の点で, ベースライン全体の設計よりも優れていた。
論文参考訳（メタデータ） (2024-03-31T10:43:33Z)
When Computing Power Network Meets Distributed Machine Learning: An Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文参考訳（メタデータ） (2023-05-22T12:36:52Z)
Vertical Federated Learning over Cloud-RAN: Convergence Analysis and System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-04T09:26:03Z)
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文参考訳（メタデータ） (2022-12-10T15:57:38Z)
COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文参考訳（メタデータ） (2022-11-30T00:32:37Z)
Energy-efficient Training of Distributed DNNs in the Mobile-edge-cloud Continuum [18.247181241860538]
異種ノード群が協調して学習タスクを行うマルチ層ネットワークにおいて,分散機械学習に対処する。本稿では,学習時間と品質要件を満たしつつ,エネルギー効率の高いMLモデルトレーニングを実現するRightTrainというソリューション概念を提案する。評価の結果,RightTrainは最適値と密に一致し,50%以上の性能を達成できた。
論文参考訳（メタデータ） (2022-02-23T08:35:41Z)
All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文参考訳（メタデータ） (2021-03-02T03:09:03Z)
Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文参考訳（メタデータ） (2020-12-01T11:46:03Z)
On the Difficulty of Designing Processor Arrays for Deep Neural Networks [0.0]
カムーイ (Camuy) は、線形代数演算のための重み付き定常シストリックアレイの軽量モデルである。本稿では,必要サイクル,データ移動コスト,およびシストリックアレイの利用率を推定する方法を説明するために,人気モデルの解析を行う。
論文参考訳（メタデータ） (2020-06-24T19:24:08Z)
Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文参考訳（メタデータ） (2020-03-23T08:05:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。