論文の概要: CacheNet: A Model Caching Framework for Deep Learning Inference on the
Edge
- arxiv url: http://arxiv.org/abs/2007.01793v1
- Date: Fri, 3 Jul 2020 16:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 06:13:33.450552
- Title: CacheNet: A Model Caching Framework for Deep Learning Inference on the
Edge
- Title(参考訳): CacheNet:エッジ上でのディープラーニング推論のためのモデルキャッシュフレームワーク
- Authors: Yihao Fang, Shervin Manzuri Shalmani, and Rong Zheng
- Abstract要約: CacheNetは、マシン認識アプリケーションのためのモデルキャッシングフレームワークである。
エンドデバイス上の低複雑さモデルと、エッジまたはクラウドサーバ上の高複雑性(あるいはフル)モデルをキャッシュする。
エンドデバイスまたはエッジサーバ単独で推論タスクを実行するベースラインアプローチよりも58-217%高速である。
- 参考スコア(独自算出の注目度): 3.398008512297358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep neural networks (DNN) in machine perception applications
such as image classification and speech recognition comes at the cost of high
computation and storage complexity. Inference of uncompressed large scale DNN
models can only run in the cloud with extra communication latency back and
forth between cloud and end devices, while compressed DNN models achieve
real-time inference on end devices at the price of lower predictive accuracy.
In order to have the best of both worlds (latency and accuracy), we propose
CacheNet, a model caching framework. CacheNet caches low-complexity models on
end devices and high-complexity (or full) models on edge or cloud servers. By
exploiting temporal locality in streaming data, high cache hit and consequently
shorter latency can be achieved with no or only marginal decrease in prediction
accuracy. Experiments on CIFAR-10 and FVG have shown CacheNet is 58-217% faster
than baseline approaches that run inference tasks on end devices or edge
servers alone.
- Abstract(参考訳): 画像分類や音声認識といった機械学習応用におけるディープニューラルネットワーク(DNN)の成功は、高い計算とストレージの複雑さを犠牲にしている。
圧縮されていない大規模DNNモデルはクラウド上でのみ、クラウドとエンドデバイス間の通信遅延が増大する一方、圧縮されたDNNモデルは、予測精度の低い価格で、エンドデバイス上でリアルタイムの推論を実現する。
待ち時間と正確性の両方を最大限に活用するために、モデルキャッシングフレームワークであるCacheNetを提案します。
CacheNetは、エンドデバイス上の低複雑さモデルとエッジまたはクラウドサーバ上の高複雑さ(あるいはフル)モデルをキャッシュする。
ストリーミングデータの時間的局所性を利用して、高いキャッシュヒットと結果として短いレイテンシを実現することができ、予測精度を極端に低下させることなく実現できる。
CIFAR-10とFVGの実験によると、CacheNetは、エンドデバイスやエッジサーバだけで推論タスクを実行するベースラインアプローチよりも58-217%高速である。
関連論文リスト
- A Converting Autoencoder Toward Low-latency and Energy-efficient DNN
Inference at the Edge [4.11949030493552]
エッジデバイスに適した低レイテンシかつエネルギー効率のDeep Neural Network (DNN) 推論フレームワークであるCBNetを提案する。
変換」オートエンコーダを使用して、ハードイメージを簡単なものに効率よく変換する。
CBNetは推論遅延の4.8倍のスピードアップと79%のエネルギー消費の削減を実現している。
論文 参考訳(メタデータ) (2024-03-11T08:13:42Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Deep Learning for Day Forecasts from Sparse Observations [60.041805328514876]
深層ニューラルネットワークは、気象条件をモデル化するための代替パラダイムを提供する。
MetNet-3は、密度とスパースの両方のデータセンサーから学習し、降水、風、温度、露点を最大24時間前に予測する。
MetNet-3は、それぞれ時間分解能と空間分解能が高く、最大2分と1km、運用遅延は低い。
論文 参考訳(メタデータ) (2023-06-06T07:07:54Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Streaming Video Analytics On The Edge With Asynchronous Cloud Support [2.7456483236562437]
本稿では,エッジとクラウドの予測を融合させ,低レイテンシで高精度なエッジクラウド融合アルゴリズムを提案する。
ビデオのオブジェクト検出(多くのビデオ分析シナリオに適用可能)に注目し、融合したエッジクラウド予測が、エッジのみのシナリオとクラウドのみのシナリオの精度を最大50%上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:22:13Z) - Improving the Performance of DNN-based Software Services using Automated
Layer Caching [3.804240190982695]
ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて、不可欠なコンポーネントとなっている。
このような大規模モデルの計算複雑性は依然として比較的重要であり、低推論遅延を妨げている。
本稿では,DNNベースのサービスの性能向上のためのエンドツーエンド自動ソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-18T18:21:20Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文 参考訳(メタデータ) (2021-01-18T22:13:08Z) - Calibration-Aided Edge Inference Offloading via Adaptive Model
Partitioning of Deep Neural Networks [30.800324092046793]
モバイルデバイスは、ディープニューラルネットワーク(DNN)ベースの推論をクラウドにオフロードし、ローカルハードウェアとエネルギー制限を克服することができる。
本研究は,モデル分割によるオフロードにおける誤校正初期DNNの利用が,推論精度を著しく低下させることを示した。
対照的に、デプロイ前にキャリブレーションアルゴリズムを実装することでこの問題を解決し、より信頼性の高いオフロード決定が可能になると論じる。
論文 参考訳(メタデータ) (2020-10-30T15:50:12Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。