論文の概要: LIBRA: Enabling Workload-aware Multi-dimensional Network Topology Optimization for Distributed Training of Large AI Models
- arxiv url: http://arxiv.org/abs/2109.11762v2
- Date: Sun, 5 May 2024 05:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 03:57:05.066957
- Title: LIBRA: Enabling Workload-aware Multi-dimensional Network Topology Optimization for Distributed Training of Large AI Models
- Title(参考訳): LIBRA:大規模AIモデルの分散トレーニングのためのワークロード対応多次元ネットワークトポロジ最適化
- Authors: William Won, Saeed Rashidi, Sudarshan Srinivasan, Tushar Krishna,
- Abstract要約: 我々は,機械学習システムにおける多次元ネットワークの設計を,ネットワーク全体の帯域幅を向上させるためのコスト効率のメカニズムとして動機付けている。
多次元ファブリックアーキテクチャの最適化に特化したフレームワークであるLIBRAを紹介する。
- 参考スコア(独自算出の注目度): 6.980277221943408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As model sizes in machine learning continue to scale, distributed training is necessary to accommodate model weights within each device and to reduce training time. However, this comes with the expense of increased communication overhead due to the exchange of gradients and activations, which become the critical bottleneck of the end-to-end training process. In this work, we motivate the design of multi-dimensional networks within machine learning systems as a cost-efficient mechanism to enhance overall network bandwidth. We also identify that optimal bandwidth allocation is pivotal for multi-dimensional networks to ensure efficient resource utilization. We introduce LIBRA, a framework specifically focused on optimizing multi-dimensional fabric architectures. Through case studies, we demonstrate the value of LIBRA, both in architecting optimized fabrics under diverse constraints and in enabling co-optimization opportunities.
- Abstract(参考訳): 機械学習のモデルサイズが拡大し続けるにつれて、各デバイス内のモデルウェイトに対応し、トレーニング時間を短縮するためには、分散トレーニングが必要である。
しかし、これはグラデーションとアクティベーションの交換による通信オーバーヘッドの増大によるものであり、エンドツーエンドのトレーニングプロセスの重大なボトルネックとなっている。
本研究では,機械学習システムにおける多次元ネットワークの設計を,ネットワーク全体の帯域幅を向上させるためのコスト効率のメカニズムとして動機づける。
また,効率的な資源利用を確保するため,多次元ネットワークにおいて最適な帯域幅割り当てが重要であることも確認した。
多次元ファブリックアーキテクチャの最適化に特化したフレームワークであるLIBRAを紹介する。
ケーススタディを通じて、多種多様な制約下で最適化されたファブリックを設計し、協調最適化の機会を実現することにおいて、LIBRAの価値を実証する。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - RTF-Q: Efficient Unsupervised Domain Adaptation with Retraining-free Quantization [14.447148108341688]
ReTraining-Free Quantization (RTF-Q) を用いた効率的な非教師なし領域適応法を提案する。
提案手法では,計算コストの異なる低精度量子化アーキテクチャを用い,動的予算を持つデバイスに適用する。
提案するネットワークは,3つのベンチマークにおける最先端手法との競合精度を実証する。
論文 参考訳(メタデータ) (2024-08-11T11:53:29Z) - When Computing Power Network Meets Distributed Machine Learning: An
Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。
私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文 参考訳(メタデータ) (2023-05-22T12:36:52Z) - Vertical Federated Learning over Cloud-RAN: Convergence Analysis and
System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。
アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-04T09:26:03Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Energy-efficient Training of Distributed DNNs in the Mobile-edge-cloud
Continuum [18.247181241860538]
異種ノード群が協調して学習タスクを行うマルチ層ネットワークにおいて,分散機械学習に対処する。
本稿では,学習時間と品質要件を満たしつつ,エネルギー効率の高いMLモデルトレーニングを実現するRightTrainというソリューション概念を提案する。
評価の結果,RightTrainは最適値と密に一致し,50%以上の性能を達成できた。
論文 参考訳(メタデータ) (2022-02-23T08:35:41Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - On the Difficulty of Designing Processor Arrays for Deep Neural Networks [0.0]
カムーイ (Camuy) は、線形代数演算のための重み付き定常シストリックアレイの軽量モデルである。
本稿では,必要サイクル,データ移動コスト,およびシストリックアレイの利用率を推定する方法を説明するために,人気モデルの解析を行う。
論文 参考訳(メタデータ) (2020-06-24T19:24:08Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。