Fugu-MT 論文翻訳(概要): DiviML: A Module-based Heuristic for Mapping Neural Networks onto Heterogeneous Platforms

論文の概要: DiviML: A Module-based Heuristic for Mapping Neural Networks onto Heterogeneous Platforms

arxiv url: http://arxiv.org/abs/2308.00127v2
Date: Wed, 2 Aug 2023 00:21:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-03 10:12:17.875372
Title: DiviML: A Module-based Heuristic for Mapping Neural Networks onto Heterogeneous Platforms
Title（参考訳）: diviml: ニューラルネットワークを異種プラットフォームにマッピングするモジュールベースのヒューリスティック
Authors: Yassine Ghannane and Mohamed S. Abdelfattah
Abstract要約: 我々は、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスに分割するコンパイラレベルのアプローチを開発する。我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とモジュラリティベースのランタイムを通じて、正確な解法と統合する。複数の異種サーバにまたがる大規模な言語モデルをスケジュールするために、フレームワークをどのように拡張できるかを示します。
参考スコア（独自算出の注目度）: 5.970091958678456
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Datacenters are increasingly becoming heterogeneous, and are starting to include specialized hardware for networking, video processing, and especially deep learning. To leverage the heterogeneous compute capability of modern datacenters, we develop an approach for compiler-level partitioning of deep neural networks (DNNs) onto multiple interconnected hardware devices. We present a general framework for heterogeneous DNN compilation, offering automatic partitioning and device mapping. Our scheduler integrates both an exact solver, through a mixed integer linear programming (MILP) formulation, and a modularity-based heuristic for scalability. Furthermore, we propose a theoretical lower bound formula for the optimal solution, which enables the assessment of the heuristic solutions' quality. We evaluate our scheduler in optimizing both conventional DNNs and randomly-wired neural networks, subject to latency and throughput constraints, on a heterogeneous system comprised of a CPU and two distinct GPUs. Compared to na\"ively running DNNs on the fastest GPU, he proposed framework can achieve more than 3$\times$ times lower latency and up to 2.9$\times$ higher throughput by automatically leveraging both data and model parallelism to deploy DNNs on our sample heterogeneous server node. Moreover, our modularity-based "splitting" heuristic improves the solution runtime up to 395$\times$ without noticeably sacrificing solution quality compared to an exact MILP solution, and outperforms all other heuristics by 30-60% solution quality. Finally, our case study shows how we can extend our framework to schedule large language models across multiple heterogeneous servers by exploiting symmetry in the hardware setup. Our code can be easily plugged in to existing frameworks, and is available at https://github.com/abdelfattah-lab/diviml.
Abstract（参考訳）: データセンターはますます異質になりつつあり、ネットワーキングやビデオ処理、特にディープラーニングのための特別なハードウェアも含み始めている。現代のデータセンターの異種計算能力を活用するため、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスにコンパイラレベルで分割する手法を開発した。自動パーティショニングとデバイスマッピングを提供する異種DNNコンパイルのための汎用フレームワークを提案する。我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とスケーラビリティのためのモジュラリティベースのヒューリスティックにより、正確な解法と統合する。さらに, 最適解に対する理論的下界式を提案し, ヒューリスティック解の品質を評価する。我々は、CPUと2つの異なるGPUからなる異種システム上で、待ち時間とスループットの制約を受ける従来のDNNとランダムに配線されたニューラルネットワークの両方を最適化するスケジューラを評価する。最速のgpu上でdnnを高速に実行するのに比べ、氏は、データとモデルの並列性を利用して、サンプルのヘテロジニアスサーバノードにdnnをデプロイすることによって、3$\times$のレイテンシーと2.9$\times$のスループットを達成できるフレームワークを提案しました。さらに、モジュラリティベースの"スプリッティング"ヒューリスティックは、ソリューションのクオリティを完全に犠牲にすることなく、ソリューションランタイムを395$\times$まで改善し、他のすべてのヒューリスティックを30～60%のソリューション品質で上回らせます。最後に,本ケーススタディでは,ハードウェア設定の対称性を生かして,複数の異種サーバにまたがる大規模言語モデルをスケジュールするためのフレームワークを拡張する方法を示す。私たちのコードは既存のフレームワークに簡単にプラグインでき、https://github.com/abdelfattah-lab/divimlで利用できます。

関連論文リスト

Model-free front-to-end training of a large high performance laser neural network [0.0]
オフザシェルフコンポーネントを用いた完全自律並列光ニューラルネットワーク(ONN)を実演する。我々のONNは高効率で、ネットワークサイズと推定帯域幅の両方で、GHzレンジに向けてスケーラブルです。我々は,ハードウェアリソースの制限下であっても,ONNが高精度かつ収束効率を実現できることを示す。
論文参考訳（メタデータ） (2025-03-21T08:43:02Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices [0.30458577208819987]
我々は抵抗性ランダムアクセスメモリ(RRAM)に基づく加速器のためのエッジフレンドリーなディープニューラルネットワーク(DNN)の開発を目指している。本稿では,特定のハードウェア制約を満たす最適化ニューラルネットワークを探索するための,エッジコンパイルとリソース制約付きRRAM対応ニューラルネットワーク探索(NAS)フレームワークを提案する。 NASが速度に最適化した結果のモデルは5x-30倍のスピードアップを達成した。
論文参考訳（メタデータ） (2024-09-27T15:35:36Z)
Optimizing DNN Inference on Multi-Accelerator SoCs at Training-time [5.05866540830123]
我々は,様々なチップのCUの中から,ディープニューラルネットワーク(DNN)の細粒度マッピングを効率的に探索するハードウェア認識ツールであるODiMOを提案する。 ODiMOはDarkside上で実行されるDNNの遅延を、手動のマッピングに比べて最大8倍の精度で削減することを示す。エネルギーを目標とする場合、ODiMOはより効率的なマッピングを最大50.8倍に生成し、精度は最小限に抑えた。
論文参考訳（メタデータ） (2024-09-27T09:10:44Z)
Accelerating Split Federated Learning over Wireless Communication Networks [17.97006656280742]
我々は、連立学習(FL)の並列モデル学習機構と分割学習(SL)のモデル分割構造を組み合わせた分割学習(SFL)フレームワークを検討する。システム遅延を最小限に抑えるために,分割点選択と帯域割り当ての連立問題を定式化する。実験の結果,レイテンシ低減と精度向上における作業の優位性を実証した。
論文参考訳（メタデータ） (2023-10-24T07:49:56Z)
Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
多目的ベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。本手法は,DNNの予測精度,メモリ要求,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文参考訳（メタデータ） (2023-05-23T14:31:52Z)
Receptive Field-based Segmentation for Distributed CNN Inference Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文参考訳（メタデータ） (2022-07-22T18:38:11Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。 2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文参考訳（メタデータ） (2020-12-23T09:33:11Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。