論文の概要: Accelerating Deep Learning Inference via Learned Caches
- arxiv url: http://arxiv.org/abs/2101.07344v1
- Date: Mon, 18 Jan 2021 22:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 05:44:14.476990
- Title: Accelerating Deep Learning Inference via Learned Caches
- Title(参考訳): 学習キャッシュによるディープラーニング推論の高速化
- Authors: Arjun Balasubramanian, Adarsh Kumar, Yuhan Liu, Han Cao, Shivaram
Venkataraman, Aditya Akella
- Abstract要約: ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
- 参考スコア(独自算出の注目度): 11.617579969991294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNNs) are witnessing increased adoption in multiple
domains owing to their high accuracy in solving real-world problems. However,
this high accuracy has been achieved by building deeper networks, posing a
fundamental challenge to the low latency inference desired by user-facing
applications. Current low latency solutions trade-off on accuracy or fail to
exploit the inherent temporal locality in prediction serving workloads.
We observe that caching hidden layer outputs of the DNN can introduce a form
of late-binding where inference requests only consume the amount of computation
needed. This enables a mechanism for achieving low latencies, coupled with an
ability to exploit temporal locality. However, traditional caching approaches
incur high memory overheads and lookup latencies, leading us to design learned
caches - caches that consist of simple ML models that are continuously updated.
We present the design of GATI, an end-to-end prediction serving system that
incorporates learned caches for low-latency DNN inference. Results show that
GATI can reduce inference latency by up to 7.69X on realistic workloads.
- Abstract(参考訳): Deep Neural Networks(DNN)は、現実世界の問題を解決する上で、高い精度で複数のドメインが採用されるのを目撃している。
しかし、この高い精度は、より深いネットワークを構築することによって達成され、ユーザ向けアプリケーションによって望まれる低レイテンシの推論に対する根本的な課題となっている。
現在の低レイテンシソリューションは、正確性に関するトレードオフか、ワークロード提供の予測に固有の時間的局所性を活用できないかのどちらかだ。
我々は、DNNの隠れ層出力をキャッシュすることで、推論要求が必要な計算量だけを消費する遅延バインディングの形式を導入することを観察する。
これにより、低レイテンシを実現するためのメカニズムと、時間的局所性を活用する能力が組み合わされる。
しかし、従来のキャッシュアプローチでは、高いメモリオーバーヘッドとルックアップのレイテンシが発生し、学習したキャッシュ – 継続的に更新される単純なmlモデルで構成されるキャッシュ – を設計することになります。
低レイテンシDNN推論のための学習キャッシュを組み込んだエンドツーエンド予測サービスであるGATIの設計を提案する。
その結果、GATIは現実的なワークロードにおいて、推論遅延を最大7.69倍削減できることがわかった。
関連論文リスト
- QIANets: Quantum-Integrated Adaptive Networks for Reduced Latency and Improved Inference Times in CNN Models [2.6663666678221376]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクにおいて大きな進歩を遂げているが、その高い推論時間とレイテンシは現実の応用性を制限している。
従来のGoogLeNet、DenseNet、ResNet-18モデルアーキテクチャを再設計する新しいアプローチであるQIANetを紹介します。
実験の限界にもかかわらず, 提案手法を検証, 評価し, 推論時間の短縮を実証し, 有効精度の保存を行った。
論文 参考訳(メタデータ) (2024-10-14T09:24:48Z) - Accelerating Scalable Graph Neural Network Inference with Node-Adaptive
Propagation [80.227864832092]
グラフニューラルネットワーク(GNN)は、様々なアプリケーションで例外的な効果を発揮している。
大規模グラフの重大化は,GNNによるリアルタイム推論において重要な課題となる。
本稿では,オンライン伝搬フレームワークと2つの新しいノード適応伝搬手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T05:03:00Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Improving the Performance of DNN-based Software Services using Automated
Layer Caching [3.804240190982695]
ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて、不可欠なコンポーネントとなっている。
このような大規模モデルの計算複雑性は依然として比較的重要であり、低推論遅延を妨げている。
本稿では,DNNベースのサービスの性能向上のためのエンドツーエンド自動ソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-18T18:21:20Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Learning from Images: Proactive Caching with Parallel Convolutional
Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。
モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。
数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-15T21:32:47Z) - CacheNet: A Model Caching Framework for Deep Learning Inference on the
Edge [3.398008512297358]
CacheNetは、マシン認識アプリケーションのためのモデルキャッシングフレームワークである。
エンドデバイス上の低複雑さモデルと、エッジまたはクラウドサーバ上の高複雑性(あるいはフル)モデルをキャッシュする。
エンドデバイスまたはエッジサーバ単独で推論タスクを実行するベースラインアプローチよりも58-217%高速である。
論文 参考訳(メタデータ) (2020-07-03T16:32:14Z) - Accelerating Deep Learning Inference via Freezing [8.521443408415868]
本稿では,各中間層に近似キャッシュを導入するフリーズ推論を提案する。
これにより、ResNet-18上で実行されるCIFAR-10リクエストの91.58%に対して、有効レイヤの数を半分に削減できる可能性がある。
論文 参考訳(メタデータ) (2020-02-07T07:03:58Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。