論文の概要: Packrat: Automatic Reconfiguration for Latency Minimization in CPU-based
DNN Serving
- arxiv url: http://arxiv.org/abs/2311.18174v1
- Date: Thu, 30 Nov 2023 01:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:31:31.039145
- Title: Packrat: Automatic Reconfiguration for Latency Minimization in CPU-based
DNN Serving
- Title(参考訳): packrat:cpuベースのdnnサービスにおける遅延最小化のための自動再構成
- Authors: Ankit Bhardwaj, Amar Phanishayee, Deepak Narayanan, Mihail Tarta, Ryan
Stutsman
- Abstract要約: Packratは、最適なインスタンス数をアルゴリズムで選択する、オンライン推論のための新しいサービスシステムである。
Packratは、バッチサイズの範囲で平均化され、一般的に使用されるDNNの範囲で、推論遅延を1.43$times$から1.83$times$に改善する。
- 参考スコア(独自算出の注目度): 7.235743206838218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate how to push the performance limits of serving
Deep Neural Network (DNN) models on CPU-based servers. Specifically, we observe
that while intra-operator parallelism across multiple threads is an effective
way to reduce inference latency, it provides diminishing returns. Our primary
insight is that instead of running a single instance of a model with all
available threads on a server, running multiple instances each with smaller
batch sizes and fewer threads for intra-op parallelism can provide lower
inference latency. However, the right configuration is hard to determine
manually since it is workload- (DNN model and batch size used by the serving
system) and deployment-dependent (number of CPU cores on server). We present
Packrat, a new serving system for online inference that given a model and batch
size ($B$) algorithmically picks the optimal number of instances ($i$), the
number of threads each should be allocated ($t$), and the batch sizes each
should operate on ($b$) that minimizes latency. Packrat is built as an
extension to TorchServe and supports online reconfigurations to avoid serving
downtime. Averaged across a range of batch sizes, Packrat improves inference
latency by 1.43$\times$ to 1.83$\times$ on a range of commonly used DNNs.
- Abstract(参考訳): 本稿では,CPUベースサーバ上でのDeep Neural Network(DNN)モデルの性能限界について検討する。
具体的には、複数のスレッドにまたがるオペレータ内並列処理は、推論遅延を減らす効果的な方法であるが、リターンを減少させる。
一番の洞察は、サーバ上で利用可能なすべてのスレッドでモデルの単一インスタンスを実行する代わりに、バッチサイズが小さく、オプト内並列性のためのスレッドが少ない複数のインスタンスを実行することで、推論レイテンシが低くなります。
しかし、適切な設定は、ワークロード(DNNモデルとサービスシステムで使用されるバッチサイズ)とデプロイメント依存(サーバ上のCPUコアの数)であるため、手動で決定するのは難しい。
Packratは、モデルとバッチサイズ(B$)がアルゴリズムによって最適なインスタンス数(i$)、各スレッドの割り当て数(t$)、各バッチサイズ(b$)で実行するべきレイテンシを最小化するオンライン推論用の新しいサービスシステムである。
PackratはTorchServeの拡張として構築されており、ダウンタイムの提供を避けるためにオンライン再構成をサポートする。
Packratは、バッチサイズによって平均化され、一般的に使用されるDNNの範囲で、推論遅延を1.43$\times$から1.83$\times$に改善する。
関連論文リスト
- Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Adaptive Scheduling for Edge-Assisted DNN Serving [6.437829777289881]
本稿では,ディープニューラルネットワークを用いた複数クライアントのエッジサーバ処理の高速化について検討する。
我々はまず,同一のDNNを実行するすべての要求の利点を利用するために,新しいスケジューリングアルゴリズムを設計する。
次に、異なるDNNを使用するリクエストを、共有レイヤの有無に関わらず処理するようにアルゴリズムを拡張します。
論文 参考訳(メタデータ) (2023-04-19T20:46:50Z) - Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-01-28T13:08:54Z) - Improving the Performance of DNN-based Software Services using Automated
Layer Caching [3.804240190982695]
ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて、不可欠なコンポーネントとなっている。
このような大規模モデルの計算複雑性は依然として比較的重要であり、低推論遅延を妨げている。
本稿では,DNNベースのサービスの性能向上のためのエンドツーエンド自動ソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-18T18:21:20Z) - Learning While Scheduling in Multi-Server Systems with Unknown
Statistics: MaxWeight with Discounted UCB [18.898514227870926]
本稿では、複数のサーバと複数のタイプのジョブを持つマルチサーバシステムについて考察する。
目標は、処理時間の統計を知ることなく、サーバ上のジョブをスケジュールすることだ。
我々は,MaxWeightスケジューリングポリシと割引された高信頼度境界(UCB)を組み合わせることで,統計を同時に学習し,ジョブをサーバにスケジュールするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-02T15:37:02Z) - An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:05:43Z) - Distributed Deep Learning Inference Acceleration using Seamless
Collaboration in Edge Computing [93.67044879636093]
本稿では,コラボレーティブエッジコンピューティングにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
本研究では,第2エッジサーバ(ES)上のサブタスクの重なり合うゾーンをホストES上で実行し,HALPと命名した新しいタスク協調方式を設計する。
実験結果から,GTX 1080TIとJETSON AGX Xavierでは,単一のタスクに対して1.7-2.0x,バッチ毎に1.7-1.8x,バッチ毎に1.7-1.8x,VGG-16では1.7-2.0xのCNN推論を高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-22T18:39:09Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。