論文の概要: Moirai: Towards Optimal Placement for Distributed Inference on
Heterogeneous Devices
- arxiv url: http://arxiv.org/abs/2312.04025v3
- Date: Tue, 26 Dec 2023 06:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 01:22:14.249178
- Title: Moirai: Towards Optimal Placement for Distributed Inference on
Heterogeneous Devices
- Title(参考訳): moirai: 不均一デバイス上での分散推論の最適配置に向けて
- Authors: Beibei Zhang, Hongwei Zhu, Feng Gao, Zhihui Yang, Sean Xiaoyang Wang
- Abstract要約: 本稿では,粗い計算グラフを描画するモデルにおいて,実行時の演算子間融合をよりよく活用するモイライを提案する。
Moiraiは最先端のPlaceto、m-SCT、GETFよりもパフォーマンスが良く、4.28$timesでエンドツーエンドの推論遅延を削減できる。
- 参考スコア(独自算出の注目度): 9.8284544482116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The escalating size of Deep Neural Networks (DNNs) has spurred a growing
research interest in hosting and serving DNN models across multiple devices. A
number of studies have been reported to partition a DNN model across devices,
providing device placement solutions. The methods appeared in the literature,
however, either suffer from poor placement performance due to the exponential
search space or miss an optimal placement as a consequence of the reduced
search space with limited heuristics. Moreover, these methods have ignored the
runtime inter-operator optimization of a computation graph when coarsening the
graph, which degrades the end-to-end inference performance. This paper presents
Moirai that better exploits runtime inter-operator fusion in a model to render
a coarsened computation graph, reducing the search space while maintaining the
inter-operator optimization provided by inference backends. Moirai also
generalizes the device placement algorithm from multiple perspectives by
considering inference constraints and device heterogeneity.Extensive
experimental evaluation with 11 large DNNs demonstrates that Moirai outperforms
the state-of-the-art counterparts, i.e., Placeto, m-SCT, and GETF, up to
4.28$\times$ in reduction of the end-to-end inference latency. Moirai code is
anonymously released at \url{https://github.com/moirai-placement/moirai}.
- Abstract(参考訳): Deep Neural Networks(DNN)のエスカレートサイズは、複数のデバイスにまたがるDNNモデルのホスティングと提供に対する研究の関心を高めている。
デバイス間でDNNモデルを分割し、デバイス配置ソリューションを提供するいくつかの研究が報告されている。
しかし,本手法は,指数探索空間による配置性能の低下に悩まされるか,限定的なヒューリスティクスによる探索空間の縮小による最適配置を見逃すかのいずれかであった。
さらに、これらの手法は、グラフの粗化時に計算グラフの演算子間最適化を無視し、エンドツーエンドの推論性能を劣化させる。
本稿では,モデル内で実行時の演算子間融合をうまく活用して粗い計算グラフを描画し,推論バックエンドによるオペレータ間最適化を維持しながら探索空間を縮小するmoiraiを提案する。
Moiraiはまた、推論制約とデバイス不均一性を考慮し、デバイス配置アルゴリズムを多面的に一般化する。11の大規模なDNNによる大規模な実験的評価により、Moiraiは最先端の予測遅延(Placeto、m-SCT、GETF)を最大4.28$\times$で上回っている。
moirai コードは \url{https://github.com/moirai-placement/moirai} で匿名でリリースされる。
関連論文リスト
- Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Optimal Model Placement and Online Model Splitting for Device-Edge
Co-Inference [22.785214118527872]
デバイスのエッジコ推論は、リソース制約のある無線デバイスがディープニューラルネットワーク(DNN)ベースのアプリケーションを実行する新たな可能性を開く。
デバイスエッジ共振器のエネルギー・時間コストを最小限に抑えるため,モデル配置とオンラインモデル分割決定の協調最適化について検討した。
論文 参考訳(メタデータ) (2021-05-28T06:55:04Z) - Distributed Learning and Democratic Embeddings: Polynomial-Time Source
Coding Schemes Can Achieve Minimax Lower Bounds for Distributed Gradient
Descent under Communication Constraints [46.17631511884969]
我々は、n次元ユークリッド空間においてベクトルを圧縮する問題を考える。
数値化器の被覆効率が次元独立であるか、あるいは非常に弱い対数依存であるという意味では、民主主義的および民主的に近いソースコーディングスキームが(ほぼ)最適であることを示す。
分散最適化アルゴリズムDGD-DEFを提案する。このアルゴリズムは,提案した符号化戦略を用いて,(ほぼ)定数要素内における最小収束率を実現する。
論文 参考訳(メタデータ) (2021-03-13T00:04:11Z) - A Biased Graph Neural Network Sampler with Near-Optimal Regret [57.70126763759996]
グラフニューラルネットワーク(GNN)は、グラフおよびリレーショナルデータにディープネットワークアーキテクチャを適用する手段として登場した。
本論文では,既存の作業に基づいて,GNN近傍サンプリングをマルチアームバンディット問題として扱う。
そこで本研究では,分散を低減し,不安定かつ非限定的な支払いを回避すべく設計されたバイアスをある程度導入した報酬関数を提案する。
論文 参考訳(メタデータ) (2021-03-01T15:55:58Z) - Message Passing Descent for Efficient Machine Learning [4.416484585765027]
機械学習におけるbfデータフィッティング(DF)問題に対する反復最適化手法を提案する。
このアプローチは、df問題のbfグラフィカルモデル表現に依存している。
本稿では,モデルDF関数の多項式表現に依存する bf Message Passage Descent アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-16T12:22:54Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。
複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。
近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。
本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文 参考訳(メタデータ) (2020-06-29T22:45:01Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。