論文の概要: An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks
- arxiv url: http://arxiv.org/abs/2208.14049v1
- Date: Tue, 30 Aug 2022 08:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:37:55.025558
- Title: An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks
- Title(参考訳): 深部ニューラルネットワークの異種アンサンブル提供のための効率的かつ柔軟な推論システム
- Authors: Pierrick Pochelu, Serge G. Petiton, Bruno Conche
- Abstract要約: ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensembles of Deep Neural Networks (DNNs) have achieved qualitative
predictions but they are computing and memory intensive. Therefore, the demand
is growing to make them answer a heavy workload of requests with available
computational resources. Unlike recent initiatives on inference servers and
inference frameworks, which focus on the prediction of single DNNs, we propose
a new software layer to serve with flexibility and efficiency ensembles of
DNNs.
Our inference system is designed with several technical innovations. First,
we propose a novel procedure to find a good allocation matrix between devices
(CPUs or GPUs) and DNN instances. It runs successively a worst-fit to allocate
DNNs into the memory devices and a greedy algorithm to optimize allocation
settings and speed up the ensemble. Second, we design the inference system
based on multiple processes to run asynchronously: batching, prediction, and
the combination rule with an efficient internal communication scheme to avoid
overhead.
Experiments show the flexibility and efficiency under extreme scenarios: It
successes to serve an ensemble of 12 heavy DNNs into 4 GPUs and at the
opposite, one single DNN multi-threaded into 16 GPUs. It also outperforms the
simple baseline consisting of optimizing the batch size of DNNs by a speedup up
to 2.7X on the image classification task.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
そのため、利用可能な計算リソースで大量の要求に答えるために需要が増大している。
単一のDNNの予測に焦点を当てた最近の推論サーバや推論フレームワークとは異なり、我々はDNNの柔軟性と効率のアンサンブルに対応する新しいソフトウェア層を提案する。
私たちの推論システムはいくつかの技術革新で設計されています。
まず、デバイス(CPUやGPU)とDNNインスタンス間の適切なアロケーション行列を見つけるための新しい手法を提案する。
メモリデバイスにDNNを割り当てる、そしてアロケーション設定を最適化し、アンサンブルを高速化する、欲張りのアルゴリズムを連続的に実行します。
第2に,バッチ処理や予測,結合ルールといった複数のプロセスに基づく推論システムを,オーバーヘッドを回避するために効率的な内部通信方式で設計する。
極端なシナリオ下での柔軟性と効率性を示す実験: 12個の重いDNNを4つのGPUにアンサンブルすることに成功した。
また、画像分類タスクにおいて、DNNのバッチサイズを最大2.7倍のスピードアップで最適化する単純なベースラインよりも優れている。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Edge AI as a Service with Coordinated Deep Neural Networks [0.24578723416255746]
CoDEは、個々のモデルからマルチタスクのDNNを作成することで、最高の報酬が得られるパスである最適なパスを見つけることを目的としている。
実験により,CoDEは推論スループットを向上し,最先端の既存手法に比べて高精度であることがわかった。
論文 参考訳(メタデータ) (2024-01-01T01:54:53Z) - DiviML: A Module-based Heuristic for Mapping Neural Networks onto
Heterogeneous Platforms [5.970091958678456]
我々は、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスに分割するコンパイラレベルのアプローチを開発する。
我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とモジュラリティベースのランタイムを通じて、正確な解法と統合する。
複数の異種サーバにまたがる大規模な言語モデルをスケジュールするために、フレームワークをどのように拡張できるかを示します。
論文 参考訳(メタデータ) (2023-07-31T19:46:49Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - Efficient and Robust Mixed-Integer Optimization Methods for Training
Binarized Deep Neural Networks [0.07614628596146598]
二元活性化関数と連続または整数重み付きディープニューラルネットワーク(BDNN)について検討する。
BDNNは、古典的な混合整数計画解法により、大域的最適性に解けるような、有界な重み付き混合整数線形プログラムとして再構成可能であることを示す。
トレーニング中にBDNNの堅牢性を強制するロバストモデルが初めて提示される。
論文 参考訳(メタデータ) (2021-10-21T18:02:58Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Dynamic DNN Decomposition for Lossless Synergistic Inference [0.9549013615433989]
ディープニューラルネットワーク(DNN)は、今日のデータ処理アプリケーションで高性能を維持します。
精度損失のない相乗的推論のための動的DNN分解システムD3を提案する。
d3は最先端のdnn推論時間を最大3.4倍に上回り、バックボーンネットワーク通信のオーバーヘッドを3.68倍に削減する。
論文 参考訳(メタデータ) (2021-01-15T03:18:53Z) - TASO: Time and Space Optimization for Memory-Constrained DNN Inference [5.023660118588569]
畳み込みニューラルネットワーク(CNN)は、産業用ロボティクスや自動化システムからモバイルデバイスでの生体認証まで、多くの組み込みアプリケーションで使用されている。
本稿では、畳み込み層を実装するプリミティブ演算を選択するための整数線形計画法(ILP)に基づくCNNモデルの事前ドメイン固有最適化手法を提案する。
論文 参考訳(メタデータ) (2020-05-21T15:08:06Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。