論文の概要: Serving DNNs like Clockwork: Performance Predictability from the Bottom
Up
- arxiv url: http://arxiv.org/abs/2006.02464v2
- Date: Mon, 26 Oct 2020 15:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 18:37:53.885893
- Title: Serving DNNs like Clockwork: Performance Predictability from the Bottom
Up
- Title(参考訳): ClockworkのようなDNNを実現する - ボトムアップのパフォーマンス予測可能性
- Authors: Arpan Gujarati, Reza Karimi, Safya Alzayat, Wei Hao, Antoine Kaufmann,
Ymir Vigfusson, Jonathan Mace
- Abstract要約: 機械学習推論は、インタラクティブなWebアプリケーションのための中核的なビルディングブロックになりつつある。
既存のモデル提供アーキテクチャでは、よく知られたリアクティブ技術を使用して、一般的なレイテンシのソースを緩和している。
我々は,Deep Neural Network (DNN)モデルを用いた推論が決定論的性能を持つことを示した。
- 参考スコア(独自算出の注目度): 4.293235171619925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning inference is becoming a core building block for interactive
web applications. As a result, the underlying model serving systems on which
these applications depend must consistently meet low latency targets. Existing
model serving architectures use well-known reactive techniques to alleviate
common-case sources of latency, but cannot effectively curtail tail latency
caused by unpredictable execution times. Yet the underlying execution times are
not fundamentally unpredictable - on the contrary we observe that inference
using Deep Neural Network (DNN) models has deterministic performance. Here,
starting with the predictable execution times of individual DNN inferences, we
adopt a principled design methodology to successively build a fully distributed
model serving system that achieves predictable end-to-end performance. We
evaluate our implementation, Clockwork, using production trace workloads, and
show that Clockwork can support thousands of models while simultaneously
meeting 100ms latency targets for 99.9999% of requests. We further demonstrate
that Clockwork exploits predictable execution times to achieve tight
request-level service-level objectives (SLOs) as well as a high degree of
request-level performance isolation.
- Abstract(参考訳): 機械学習の推論は、インタラクティブなwebアプリケーションの中核的な構築ブロックになりつつある。
その結果、これらのアプリケーションが依存するシステムの基盤となるモデルは、一貫して低レイテンシのターゲットを満たさなければならない。
既存のモデル提供アーキテクチャでは、よく知られたリアクティブ技術を使用して、一般的なレイテンシソースを緩和するが、予測不可能な実行時間によるテールレイテンシを効果的に削減することはできない。
逆に、Deep Neural Network(DNN)モデルを用いた推論は決定論的性能を持っていることを観察する。
ここでは、個々のdnn推論の予測可能な実行時間から始め、予測可能なエンドツーエンドのパフォーマンスを実現する完全分散モデル提供システムを構築するために、原則化された設計手法を採用する。
当社の実装、クロックワーク、プロダクショントレースワークロードの使用を評価し、99.9999%のリクエストに対して100msのレイテンシ目標を同時に満たしながら、クロックワークが数千のモデルをサポートすることができることを示した。
さらに,クロックワークが予測可能な実行時間を利用して,要求レベルのサービスレベル目標(slos)と高い要求レベルのパフォーマンス分離を実現することを実証する。
関連論文リスト
- Accelerate Intermittent Deep Inference [0.0]
現代のトレンドは、Deep Neural Net (DNN) Modelsをバッテリレス断続的なデバイスで実行可能にすることに焦点を当てている。
我々は,256KB未満を対象とする最適化推論モデルのパワーを活用し,間欠的パワー内でのスケジューリングと実行を可能にするために,高速化された間欠的深部推論を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:15:16Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - Gated Recurrent Neural Networks with Weighted Time-Delay Feedback [59.125047512495456]
重み付き時間遅延フィードバック機構を備えた新しいゲートリカレントユニット(GRU)を導入する。
我々は、$tau$-GRUが、最先端のリカレントユニットやゲート型リカレントアーキテクチャよりも早く収束し、より一般化できることを示します。
論文 参考訳(メタデータ) (2022-12-01T02:26:34Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Improving the Performance of DNN-based Software Services using Automated
Layer Caching [3.804240190982695]
ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて、不可欠なコンポーネントとなっている。
このような大規模モデルの計算複雑性は依然として比較的重要であり、低推論遅延を妨げている。
本稿では,DNNベースのサービスの性能向上のためのエンドツーエンド自動ソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-18T18:21:20Z) - EIGNN: Efficient Infinite-Depth Graph Neural Networks [51.97361378423152]
グラフニューラルネットワーク(GNN)は多くのアプリケーションでグラフ構造化データのモデリングに広く利用されている。
この制限により、無限深度GNNモデルを提案し、これをEIGNN(Efficient Infinite-Depth Graph Neural Networks)と呼ぶ。
EIGNNは、最近のベースラインよりも長距離依存関係をキャプチャする能力が優れており、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-02-22T08:16:58Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文 参考訳(メタデータ) (2021-01-18T22:13:08Z) - Generalized Latency Performance Estimation for Once-For-All Neural
Architecture Search [0.0]
特定のハードウェアとNAS検索空間で訓練されたベースモデルを用いた微調整を含む2つの汎用性戦略を紹介します。
ProxylessNASに比べて50%以上低いRMSE損失を達成できる待ち時間予測モデル群を提供する。
論文 参考訳(メタデータ) (2021-01-04T00:48:09Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。