論文の概要: FusedInf: Efficient Swapping of DNN Models for On-Demand Serverless Inference Services on the Edge
- arxiv url: http://arxiv.org/abs/2410.21120v1
- Date: Mon, 28 Oct 2024 15:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:40.032396
- Title: FusedInf: Efficient Swapping of DNN Models for On-Demand Serverless Inference Services on the Edge
- Title(参考訳): FusedInf: エッジ上のオンデマンドサーバレス推論サービスのためのDNNモデルの効率的なスワッピング
- Authors: Sifat Ut Taki, Arthi Padmanabhan, Spyridon Mastorakis,
- Abstract要約: 我々はFusedInfを導入し、エッジ上のオンデマンドサーバレス推論サービスにDNNモデルを効率よく置き換える。
DNNモデルを評価した結果,単一のDAGを作成すれば,モデルの実行が最大14%高速化できることがわかった。
- 参考スコア(独自算出の注目度): 2.1119495676190128
- License:
- Abstract: Edge AI computing boxes are a new class of computing devices that are aimed to revolutionize the AI industry. These compact and robust hardware units bring the power of AI processing directly to the source of data--on the edge of the network. On the other hand, on-demand serverless inference services are becoming more and more popular as they minimize the infrastructural cost associated with hosting and running DNN models for small to medium-sized businesses. However, these computing devices are still constrained in terms of resource availability. As such, the service providers need to load and unload models efficiently in order to meet the growing demand. In this paper, we introduce FusedInf to efficiently swap DNN models for on-demand serverless inference services on the edge. FusedInf combines multiple models into a single Direct Acyclic Graph (DAG) to efficiently load the models into the GPU memory and make execution faster. Our evaluation of popular DNN models showed that creating a single DAG can make the execution of the models up to 14\% faster while reducing the memory requirement by up to 17\%. The prototype implementation is available at https://github.com/SifatTaj/FusedInf.
- Abstract(参考訳): エッジAIコンピューティングボックスは、AI産業に革命をもたらすことを目的とした、新しいタイプのコンピューティングデバイスである。
これらのコンパクトで堅牢なハードウェアユニットは、AI処理のパワーを、ネットワークの端にあるデータソースに直接もたらす。
一方、オンデマンドのサーバレス推論サービスは、小規模から中規模のビジネスを対象としたDNNモデルのホスティングと実行に関連するインフラコストを最小限に抑えることで、ますます人気が高まっている。
しかし、これらのコンピューティングデバイスはリソースの可用性という点では依然として制限されている。
そのため、需要の増加に対応するために、サービスプロバイダはモデルを効率的にロードおよびアンロードする必要があります。
本稿では、エッジ上のオンデマンドサーバレス推論サービスにDNNモデルを効率的に置き換えるためのFusedInfを紹介する。
FusedInfは複数のモデルを1つのDAG(Direct Acyclic Graph)に統合することで、モデルをGPUメモリに効率よくロードし、実行を高速化する。
DNNモデルを評価した結果,単一のDAGを作成すれば,最大14倍の高速化が可能であり,メモリ要求を最大17倍に削減できることがわかった。
プロトタイプの実装はhttps://github.com/SifatTaj/FusedInf.comで公開されている。
関連論文リスト
- FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Edge AI as a Service with Coordinated Deep Neural Networks [0.24578723416255746]
CoDEは、個々のモデルからマルチタスクのDNNを作成することで、最高の報酬が得られるパスである最適なパスを見つけることを目的としている。
実験により,CoDEは推論スループットを向上し,最先端の既存手法に比べて高精度であることがわかった。
論文 参考訳(メタデータ) (2024-01-01T01:54:53Z) - DNNShifter: An Efficient DNN Pruning System for Edge Computing [1.853502789996996]
ディープニューラルネットワーク(DNN)は多くの機械学習アプリケーションを支える。
生産品質のDNNモデルは、膨大なリソースフットプリントを持つ数百万のDNNパラメータをトレーニングすることで、高い推論精度を達成する。
これは、計算資源やメモリ資源が限られているモバイルや組み込みデバイスのような、ネットワークの極端で運用するリソースにとっての課題である。
既存のプルーニング手法は、大幅な時間コストとオーバーヘッドを伴わず、未処理のプルーニングモデルと同じような品質のモデルを提供できないか、オフラインのユースケースに限定される。
我々の研究は、原モデルの精度を維持しつつ、適切なモデル変種を迅速に導き出す。
論文 参考訳(メタデータ) (2023-09-13T14:05:50Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Improving the Performance of DNN-based Software Services using Automated
Layer Caching [3.804240190982695]
ディープニューラルネットワーク(DNN)は、Webベースのサービスを含む多くのアプリケーションドメインにおいて、不可欠なコンポーネントとなっている。
このような大規模モデルの計算複雑性は依然として比較的重要であり、低推論遅延を妨げている。
本稿では,DNNベースのサービスの性能向上のためのエンドツーエンド自動ソリューションを提案する。
論文 参考訳(メタデータ) (2022-09-18T18:21:20Z) - An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:05:43Z) - Update Compression for Deep Neural Networks on the Edge [33.57905298104467]
エッジデバイス上でのディープニューラルネットワーク(DNN)の実行を含むAIアプリケーションの増加。
多くの実用的な理由は、デプロイ後のエッジデバイスでDNNモデルを更新する必要性を動機付けている。
モデル更新を圧縮するための行列分解に基づく簡単なアプローチを開発する。
論文 参考訳(メタデータ) (2022-03-09T04:20:43Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。