Fugu-MT 論文翻訳(概要): Improving the Performance of DNN-based Software Services using Automated Layer Caching

論文の概要: Improving the Performance of DNN-based Software Services using Automated Layer Caching

arxiv url: http://arxiv.org/abs/2209.08625v1
Date: Sun, 18 Sep 2022 18:21:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 20:06:56.413183
Title: Improving the Performance of DNN-based Software Services using Automated Layer Caching
Title（参考訳）: 自動層キャッシングによるDNNベースのソフトウェアサービスの性能向上
Authors: Mohammadamin Abedi, Yanni Iouannou, Pooyan Jamshidi, Hadi Hemmati
Abstract要約: ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて、不可欠なコンポーネントとなっている。このような大規模モデルの計算複雑性は依然として比較的重要であり、低推論遅延を妨げている。本稿では,DNNベースのサービスの性能向上のためのエンドツーエンド自動ソリューションを提案する。
参考スコア（独自算出の注目度）: 3.804240190982695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Neural Networks (DNNs) have become an essential component in many application domains including web-based services. A variety of these services require high throughput and (close to) real-time features, for instance, to respond or react to users' requests or to process a stream of incoming data on time. However, the trend in DNN design is toward larger models with many layers and parameters to achieve more accurate results. Although these models are often pre-trained, the computational complexity in such large models can still be relatively significant, hindering low inference latency. Implementing a caching mechanism is a typical systems engineering solution for speeding up a service response time. However, traditional caching is often not suitable for DNN-based services. In this paper, we propose an end-to-end automated solution to improve the performance of DNN-based services in terms of their computational complexity and inference latency. Our caching method adopts the ideas of self-distillation of DNN models and early exits. The proposed solution is an automated online layer caching mechanism that allows early exiting of a large model during inference time if the cache model in one of the early exits is confident enough for final prediction. One of the main contributions of this paper is that we have implemented the idea as an online caching, meaning that the cache models do not need access to training data and perform solely based on the incoming data at run-time, making it suitable for applications using pre-trained models. Our experiments results on two downstream tasks (face and object classification) show that, on average, caching can reduce the computational complexity of those services up to 58\% (in terms of FLOPs count) and improve their inference latency up to 46\% with low to zero reduction in accuracy.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて重要なコンポーネントとなっている。これらのサービスには、高いスループットと(近い)リアルタイム機能が必要で、例えば、ユーザの要求に応答したり、応答したり、時間どおりに着信データストリームを処理したりする。しかし、DNN設計のトレンドは、より正確な結果を得るために多くの層とパラメータを持つより大きなモデルに向かっている。これらのモデルはしばしば事前訓練されているが、そのような大きなモデルの計算複雑性は依然として比較的重要であり、低い推論遅延を妨げる。キャッシュメカニズムの実装は、サービスレスポンス時間を短縮するための典型的なシステムエンジニアリングソリューションです。しかし、従来のキャッシュはDNNベースのサービスには適していないことが多い。本稿では、DNNベースのサービスの性能を計算複雑性と推論遅延の観点から改善するエンドツーエンドの自動ソリューションを提案する。キャッシュ方式はDNNモデルと早期出口の自己蒸留の考え方を採用する。提案手法は,初期出口のキャッシュモデルが最終的な予測に十分自信がある場合,推論時間中に大規模モデルの早期終了を可能にするオンライン・レイヤ・キャッシュ機構である。本論文の主なコントリビューションの1つは、オンラインキャッシングとして、キャッシュモデルがトレーニングデータにアクセスする必要がなく、実行時に入ってくるデータのみに基づいて実行するので、事前訓練されたモデルを使用したアプリケーションに適している、という考え方である。実験の結果,2つの下流タスク(顔と対象の分類)において,キャッシングは平均して58\%(FLOP数)までの計算複雑性を低減し,推論遅延を46\%まで改善し,精度を低下させることができた。

関連論文リスト

QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文参考訳（メタデータ） (2023-10-17T09:25:17Z)
Transferability of Convolutional Neural Networks in Stationary Learning Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文参考訳（メタデータ） (2023-07-21T13:51:45Z)
Adaptive Scheduling for Edge-Assisted DNN Serving [6.437829777289881]
本稿では,ディープニューラルネットワークを用いた複数クライアントのエッジサーバ処理の高速化について検討する。我々はまず,同一のDNNを実行するすべての要求の利点を利用するために,新しいスケジューリングアルゴリズムを設計する。次に、異なるDNNを使用するリクエストを、共有レイヤの有無に関わらず処理するようにアルゴリズムを拡張します。
論文参考訳（メタデータ） (2023-04-19T20:46:50Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文参考訳（メタデータ） (2022-09-27T15:04:01Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Learning from Images: Proactive Caching with Parallel Convolutional Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文参考訳（メタデータ） (2021-08-15T21:32:47Z)
Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文参考訳（メタデータ） (2021-01-18T22:13:08Z)
CacheNet: A Model Caching Framework for Deep Learning Inference on the Edge [3.398008512297358]
CacheNetは、マシン認識アプリケーションのためのモデルキャッシングフレームワークである。エンドデバイス上の低複雑さモデルと、エッジまたはクラウドサーバ上の高複雑性(あるいはフル)モデルをキャッシュする。エンドデバイスまたはエッジサーバ単独で推論タスクを実行するベースラインアプローチよりも58-217%高速である。
論文参考訳（メタデータ） (2020-07-03T16:32:14Z)
Serving DNNs like Clockwork: Performance Predictability from the Bottom Up [4.293235171619925]
機械学習推論は、インタラクティブなWebアプリケーションのための中核的なビルディングブロックになりつつある。既存のモデル提供アーキテクチャでは、よく知られたリアクティブ技術を使用して、一般的なレイテンシのソースを緩和している。我々は,Deep Neural Network (DNN)モデルを用いた推論が決定論的性能を持つことを示した。
論文参考訳（メタデータ） (2020-06-03T18:18:45Z)
Accelerating Deep Learning Inference via Freezing [8.521443408415868]
本稿では,各中間層に近似キャッシュを導入するフリーズ推論を提案する。これにより、ResNet-18上で実行されるCIFAR-10リクエストの91.58%に対して、有効レイヤの数を半分に削減できる可能性がある。
論文参考訳（メタデータ） (2020-02-07T07:03:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。