論文の概要: Adaptive Workload Distribution for Accuracy-aware DNN Inference on
Collaborative Edge Platforms
- arxiv url: http://arxiv.org/abs/2310.10157v1
- Date: Mon, 16 Oct 2023 07:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 15:48:47.597498
- Title: Adaptive Workload Distribution for Accuracy-aware DNN Inference on
Collaborative Edge Platforms
- Title(参考訳): 協調エッジプラットフォーム上での精度を考慮したDNN推論のための適応的ワークロード分布
- Authors: Zain Taufique, Antonio Miele, Pasi Liljeberg, Anil Kanduri
- Abstract要約: DNN推論は、協調的なエッジノードのクラスタ間でワークロードを分散することで加速することができる。
そこで本研究では,DNN推論のための適応的ワークロード分布を提案する。
我々は,Odroid XU4,Raspberry Pi4,Jetson Nanoボードのエッジクラスタ上でテストを行い,最先端のワークロード分散戦略と比較して平均41.52%,出力精度5.2%を達成した。
- 参考スコア(独自算出の注目度): 2.0276034855891996
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: DNN inference can be accelerated by distributing the workload among a cluster
of collaborative edge nodes. Heterogeneity among edge devices and
accuracy-performance trade-offs of DNN models present a complex exploration
space while catering to the inference performance requirements. In this work,
we propose adaptive workload distribution for DNN inference, jointly
considering node-level heterogeneity of edge devices, and application-specific
accuracy and performance requirements. Our proposed approach combinatorially
optimizes heterogeneity-aware workload partitioning and dynamic accuracy
configuration of DNN models to ensure performance and accuracy guarantees. We
tested our approach on an edge cluster of Odroid XU4, Raspberry Pi4, and Jetson
Nano boards and achieved an average gain of 41.52% in performance and 5.2% in
output accuracy as compared to state-of-the-art workload distribution
strategies.
- Abstract(参考訳): DNN推論は、協調的なエッジノードのクラスタ間でワークロードを分散することで加速することができる。
エッジデバイス間の不均一性とDNNモデルの精度-性能トレードオフは、推論性能要求に対応しながら複雑な探索空間を示す。
本研究では,エッジデバイスのノードレベルの不均一性と,アプリケーション固有の精度と性能要件を考慮したDNN推論のための適応的ワークロード分布を提案する。
提案手法は、DNNモデルの不均一性を考慮したワークロード分割と動的精度設定を組合せて最適化し、性能と精度を保証する。
我々は,Odroid XU4,Raspberry Pi4,Jetson Nanoボードのエッジクラスタ上でテストを行い,最先端のワークロード分散戦略と比較して平均41.52%,出力精度5.2%を達成した。
関連論文リスト
- Positional Encoder Graph Quantile Neural Networks for Geographic Data [4.277516034244117]
我々は,PE-GNN,Quantile Neural Networks,および再校正技術を完全非パラメトリックフレームワークに統合する新しい手法である,位置グラフ量子ニューラルネットワーク(PE-GQNN)を紹介する。
ベンチマークデータセットの実験では、PE-GQNNは予測精度と不確実性の定量化の両方で既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-09-27T16:02:12Z) - Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference [4.093167352780157]
本稿では,ポジトリにインスパイアされた適応型ハードウェアフレンドリなデータ型であるLogarithmic Posits (LP)を紹介する。
また,LPQ(LP Quantization, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化)
論文 参考訳(メタデータ) (2024-03-08T17:28:49Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - PQA: Exploring the Potential of Product Quantization in DNN Hardware Acceleration [14.091100907457037]
製品量子化(PQ)は、マルチプライ累積(MAC)操作を置き換えるためにディープニューラルネットワーク(DNN)に適用されている。
私たちは、近くの検索とドット商品のルックアップを並列化し、加速するための、カスタムハードウェアアクセラレータを作成します。
高度に最適化された従来のDNNアクセラレータと比較しても、ResNet20の性能を最大3.1$times$で改善するPQ構成を識別する。
論文 参考訳(メタデータ) (2023-05-25T09:27:01Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - GNN at the Edge: Cost-Efficient Graph Neural Network Processing over
Distributed Edge Servers [24.109721494781592]
グラフニューラルネットワーク(GNN)はまだ探索中であり、その広範な採用に対する大きな違いを示している。
本稿では,多層ヘテロジニアスエッジネットワーク上での分散GNN処理のコスト最適化について検討する。
提案手法は, 高速収束速度で95.8%以上のコスト削減を行い, デファクトベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-31T13:03:16Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Bayesian Graph Neural Networks with Adaptive Connection Sampling [62.51689735630133]
グラフニューラルネットワーク(GNN)における適応接続サンプリングのための統一的なフレームワークを提案する。
提案フレームワークは,深部GNNの過度なスムース化や過度に適合する傾向を緩和するだけでなく,グラフ解析タスクにおけるGNNによる不確実性の学習を可能にする。
論文 参考訳(メタデータ) (2020-06-07T07:06:35Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。