論文の概要: DiviML: A Module-based Heuristic for Mapping Neural Networks onto
Heterogeneous Platforms
- arxiv url: http://arxiv.org/abs/2308.00127v2
- Date: Wed, 2 Aug 2023 00:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 10:12:17.875372
- Title: DiviML: A Module-based Heuristic for Mapping Neural Networks onto
Heterogeneous Platforms
- Title(参考訳): diviml: ニューラルネットワークを異種プラットフォームにマッピングするモジュールベースのヒューリスティック
- Authors: Yassine Ghannane and Mohamed S. Abdelfattah
- Abstract要約: 我々は、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスに分割するコンパイラレベルのアプローチを開発する。
我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とモジュラリティベースのランタイムを通じて、正確な解法と統合する。
複数の異種サーバにまたがる大規模な言語モデルをスケジュールするために、フレームワークをどのように拡張できるかを示します。
- 参考スコア(独自算出の注目度): 5.970091958678456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Datacenters are increasingly becoming heterogeneous, and are starting to
include specialized hardware for networking, video processing, and especially
deep learning. To leverage the heterogeneous compute capability of modern
datacenters, we develop an approach for compiler-level partitioning of deep
neural networks (DNNs) onto multiple interconnected hardware devices. We
present a general framework for heterogeneous DNN compilation, offering
automatic partitioning and device mapping. Our scheduler integrates both an
exact solver, through a mixed integer linear programming (MILP) formulation,
and a modularity-based heuristic for scalability. Furthermore, we propose a
theoretical lower bound formula for the optimal solution, which enables the
assessment of the heuristic solutions' quality. We evaluate our scheduler in
optimizing both conventional DNNs and randomly-wired neural networks, subject
to latency and throughput constraints, on a heterogeneous system comprised of a
CPU and two distinct GPUs. Compared to na\"ively running DNNs on the fastest
GPU, he proposed framework can achieve more than 3$\times$ times lower latency
and up to 2.9$\times$ higher throughput by automatically leveraging both data
and model parallelism to deploy DNNs on our sample heterogeneous server node.
Moreover, our modularity-based "splitting" heuristic improves the solution
runtime up to 395$\times$ without noticeably sacrificing solution quality
compared to an exact MILP solution, and outperforms all other heuristics by
30-60% solution quality. Finally, our case study shows how we can extend our
framework to schedule large language models across multiple heterogeneous
servers by exploiting symmetry in the hardware setup. Our code can be easily
plugged in to existing frameworks, and is available at
https://github.com/abdelfattah-lab/diviml.
- Abstract(参考訳): データセンターはますます異質になりつつあり、ネットワーキングやビデオ処理、特にディープラーニングのための特別なハードウェアも含み始めている。
現代のデータセンターの異種計算能力を活用するため、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスにコンパイラレベルで分割する手法を開発した。
自動パーティショニングとデバイスマッピングを提供する異種DNNコンパイルのための汎用フレームワークを提案する。
我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とスケーラビリティのためのモジュラリティベースのヒューリスティックにより、正確な解法と統合する。
さらに, 最適解に対する理論的下界式を提案し, ヒューリスティック解の品質を評価する。
我々は、CPUと2つの異なるGPUからなる異種システム上で、待ち時間とスループットの制約を受ける従来のDNNとランダムに配線されたニューラルネットワークの両方を最適化するスケジューラを評価する。
最速のgpu上でdnnを高速に実行するのに比べ、氏は、データとモデルの並列性を利用して、サンプルのヘテロジニアスサーバノードにdnnをデプロイすることによって、3$\times$のレイテンシーと2.9$\times$のスループットを達成できるフレームワークを提案しました。
さらに、モジュラリティベースの"スプリッティング"ヒューリスティックは、ソリューションのクオリティを完全に犠牲にすることなく、ソリューションランタイムを395$\times$まで改善し、他のすべてのヒューリスティックを30~60%のソリューション品質で上回らせます。
最後に,本ケーススタディでは,ハードウェア設定の対称性を生かして,複数の異種サーバにまたがる大規模言語モデルをスケジュールするためのフレームワークを拡張する方法を示す。
私たちのコードは既存のフレームワークに簡単にプラグインでき、https://github.com/abdelfattah-lab/divimlで利用できます。
関連論文リスト
- Accelerating Split Federated Learning over Wireless Communication
Networks [17.97006656280742]
我々は、連立学習(FL)の並列モデル学習機構と分割学習(SL)のモデル分割構造を組み合わせた分割学習(SFL)フレームワークを検討する。
システム遅延を最小限に抑えるために,分割点選択と帯域割り当ての連立問題を定式化する。
実験の結果,レイテンシ低減と精度向上における作業の優位性を実証した。
論文 参考訳(メタデータ) (2023-10-24T07:49:56Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Split-Et-Impera: A Framework for the Design of Distributed Deep Learning
Applications [8.434224141580758]
Split-Et-Imperaは、ディープネットワークの解釈可能性の原則に基づいて、ニューラルネットワークのベストスプリットポイントのセットを決定する。
異なるニューラルネットワーク再構成の迅速な評価のための通信認識シミュレーションを実行する。
これは、アプリケーションのサービス要件の品質と、正確性とレイテンシ時間の観点からのパフォーマンスのベストマッチを示唆している。
論文 参考訳(メタデータ) (2023-03-22T13:00:00Z) - An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:05:43Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。