論文の概要: SwapNet: Efficient Swapping for DNN Inference on Edge AI Devices Beyond
the Memory Budget
- arxiv url: http://arxiv.org/abs/2401.16757v1
- Date: Tue, 30 Jan 2024 05:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:07:51.922037
- Title: SwapNet: Efficient Swapping for DNN Inference on Edge AI Devices Beyond
the Memory Budget
- Title(参考訳): SwapNet: メモリ予算を越えたエッジAIデバイス上でのDNN推論のための効率的なスワッピング
- Authors: Kun Wang, Jiani Cao, Zimu Zhou and Zhenjiang Li
- Abstract要約: エッジ人工知能(AI)デバイス上のディープニューラルネットワーク(DNN)は、さまざまな自律的なモバイルコンピューティングアプリケーションを可能にする。
モデル圧縮やクラウドオフロードといった既存のソリューションは、DNN推論のメモリフットプリントを減らす。
We developed SwapNet, a efficient block swapping ecosystem for edge AI devices。
- 参考スコア(独自算出の注目度): 18.63754969602021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Executing deep neural networks (DNNs) on edge artificial intelligence (AI)
devices enables various autonomous mobile computing applications. However, the
memory budget of edge AI devices restricts the number and complexity of DNNs
allowed in such applications. Existing solutions, such as model compression or
cloud offloading, reduce the memory footprint of DNN inference at the cost of
decreased model accuracy or autonomy. To avoid these drawbacks, we divide DNN
into blocks and swap them in and out in order, such that large DNNs can execute
within a small memory budget. Nevertheless, naive swapping on edge AI devices
induces significant delays due to the redundant memory operations in the DNN
development ecosystem for edge AI devices. To this end, we develop SwapNet, an
efficient DNN block swapping middleware for edge AI devices. We systematically
eliminate the unnecessary memory operations during block swapping while
retaining compatible with the deep learning frameworks, GPU backends, and
hardware architectures of edge AI devices. We further showcase the utility of
SwapNet via a multi-DNN scheduling scheme. Evaluations on eleven DNN inference
tasks in three applications demonstrate that SwapNet achieves almost the same
latency as the case with sufficient memory even when DNNs demand 2.32x to 5.81x
memory beyond the available budget. The design of SwapNet also provides novel
and feasible insights for deploying large language models (LLMs) on edge AI
devices in the future.
- Abstract(参考訳): エッジ人工知能(AI)デバイス上でのディープニューラルネットワーク(DNN)の実行は、さまざまな自律的なモバイルコンピューティングアプリケーションを可能にする。
しかし、エッジAIデバイスのメモリ予算は、そのようなアプリケーションで許されるDNNの数と複雑さを制限する。
モデル圧縮やクラウドオフロードといった既存のソリューションは、モデル精度や自律性の低下を犠牲にして、DNN推論のメモリフットプリントを削減する。
これらの欠点を回避するため、DNNをブロックに分割し、大きなDNNが小さなメモリ予算で実行できるように順番に入れ替える。
それでも、エッジAIデバイスへのナイーブスワップは、エッジAIデバイス用のDNN開発エコシステムにおける冗長なメモリ操作のために、大幅な遅延を引き起こす。
そこで我々は,エッジAIデバイス用のミドルウェアを交換する効率的なDNNブロックであるSwapNetを開発した。
エッジAIデバイスのディープラーニングフレームワーク、GPUバックエンド、ハードウェアアーキテクチャとの互換性を維持しながら、ブロックスワップ時の不要なメモリ操作を体系的に排除します。
さらに,マルチDNNスケジューリング方式によるSwapNetの有用性を示す。
3つのアプリケーションにおける11のDNN推論タスクの評価は、DNNが利用可能な予算を超える2.32倍から5.81倍のメモリを要求する場合でも、SwapNetが十分なメモリを持つ場合とほとんど同じレイテンシを実現することを示した。
SwapNetの設計はまた、将来エッジAIデバイスに大規模言語モデル(LLM)をデプロイするための、斬新で実現可能な洞察を提供する。
関連論文リスト
- MatchNAS: Optimizing Edge AI in Sparse-Label Data Contexts via
Automating Deep Neural Network Porting for Mobile Deployment [54.77943671991863]
MatchNASはDeep Neural Networksをモバイルデバイスに移植するための新しいスキームである。
ラベル付きデータと非ラベル付きデータの両方を用いて、大規模なネットワークファミリを最適化する。
そして、さまざまなハードウェアプラットフォーム用に調整されたネットワークを自動的に検索する。
論文 参考訳(メタデータ) (2024-02-21T04:43:12Z) - Enabling Deep Learning on Edge Devices [2.741266294612776]
ディープニューラルネットワーク(DNN)は、コンピュータビジョン、自然言語処理、強化学習など、多くの異なる認識タスクに成功している。
高性能DNNは資源消費に大きく依存している。
近年、AR/VR、モバイルアシスタント、モノのインターネットなど、新たなインテリジェントなアプリケーションでは、リソース制約のあるエッジデバイスにDNNをデプロイする必要があります。
この論文では,エッジデバイスへの推論,エッジデバイスへの適応,エッジデバイスへの学習,エッジサーバシステムという4つのエッジインテリジェンスシナリオについて検討した。
論文 参考訳(メタデータ) (2022-10-06T20:52:57Z) - An efficient and flexible inference system for serving heterogeneous
ensembles of deep neural networks [0.0]
ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。
DNNの柔軟性と効率性を両立させる新しいソフトウェア層を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:05:43Z) - Sparsifying Binary Networks [3.8350038566047426]
バイナリニューラルネットワーク(BNN)は、完全精度のディープニューラルネットワーク(DNN)と同等の精度で複雑なタスクを解く能力を示した。
最近の改善にもかかわらず、非常に限られたリソースを持つ特定のデバイスで不十分な、固定的で制限された圧縮要因に悩まされている。
本稿では,BNNの疎性を導入した新しいモデルとトレーニング手法であるスパースバイナリニューラルネットワーク(SBNN)と,ネットワークの重みをバイナライズする新しい量子化関数を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:54:41Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Dynamic DNN Decomposition for Lossless Synergistic Inference [0.9549013615433989]
ディープニューラルネットワーク(DNN)は、今日のデータ処理アプリケーションで高性能を維持します。
精度損失のない相乗的推論のための動的DNN分解システムD3を提案する。
d3は最先端のdnn推論時間を最大3.4倍に上回り、バックボーンネットワーク通信のオーバーヘッドを3.68倍に削減する。
論文 参考訳(メタデータ) (2021-01-15T03:18:53Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。