論文の概要: On the Impact of Black-box Deployment Strategies for Edge AI on Latency and Model Performance
- arxiv url: http://arxiv.org/abs/2403.17154v1
- Date: Mon, 25 Mar 2024 20:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:45:52.691126
- Title: On the Impact of Black-box Deployment Strategies for Edge AI on Latency and Model Performance
- Title(参考訳): エッジAIのブラックボックス展開戦略がレイテンシとモデルパフォーマンスに及ぼす影響について
- Authors: Jaskirat Singh, Bram Adams, Ahmed E. Hassan,
- Abstract要約: この研究は、異なるEdge AIデプロイメント戦略の精度と推論時間のトレードオフを実証的に評価することを目的としている。
3つのデプロイメントオペレータ(パーティショニング、量子化、アーリーエグジット)と3つのデプロイメント層(モバイル、エッジ、クラウド)を含む推論実験を行います。
以上の結果から,ハイブリッドなQuantization+Early Exit演算子を用いたエッジ配置が非ハイブリッド演算子よりも望ましいことが示唆された。
- 参考スコア(独自算出の注目度): 14.116380148736221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deciding what combination of operators to use across the Edge AI tiers to achieve specific latency and model performance requirements is an open question for MLOps engineers. This study aims to empirically assess the accuracy vs inference time trade-off of different black-box Edge AI deployment strategies, i.e., combinations of deployment operators and deployment tiers. In this paper, we conduct inference experiments involving 3 deployment operators (i.e., Partitioning, Quantization, Early Exit), 3 deployment tiers (i.e., Mobile, Edge, Cloud) and their combinations on four widely used Computer-Vision models to investigate the optimal strategies from the point of view of MLOps developers. Our findings suggest that Edge deployment using the hybrid Quantization + Early Exit operator could be preferred over non-hybrid operators (Quantization/Early Exit on Edge, Partition on Mobile-Edge) when faster latency is a concern at medium accuracy loss. However, when minimizing accuracy loss is a concern, MLOps engineers should prefer using only a Quantization operator on edge at a latency reduction or increase, respectively over the Early Exit/Partition (on edge/mobile-edge) and Quantized Early Exit (on edge) operators. In scenarios constrained by Mobile CPU/RAM resources, a preference for Partitioning across mobile and edge tiers is observed over mobile deployment. For models with smaller input data samples (such as FCN), a network-constrained cloud deployment can also be a better alternative than Mobile/Edge deployment and Partitioning strategies. For models with large input data samples (ResNet, ResNext, DUC), an edge tier having higher network/computational capabilities than Cloud/Mobile can be a more viable option than Partitioning and Mobile/Cloud deployment strategies.
- Abstract(参考訳): 特定のレイテンシとパフォーマンス要件をモデル化するために、Edge AIティアで使用する演算子の組み合わせを決定することは、MLOpsエンジニアにとって、オープンな疑問である。
この研究は、異なるブラックボックスのEdge AIデプロイメント戦略、すなわちデプロイメントオペレータとデプロイメント層の組み合わせの正確さと推論時間のトレードオフを実証的に評価することを目的としている。
本稿では,MLOps開発者の観点から,3つのデプロイメント演算子(パーティショニング,量子化,早期実行),3つのデプロイメント階層(モバイル,エッジ,クラウド)と4つの広く使用されているコンピュータビジョンモデルに対するそれらの組み合わせを含む推論実験を行い,最適な戦略を検討する。
以上の結果から,ハイブリッドなQuantization+Early Exit演算子を用いたエッジ配置は,高速遅延が中精度損失の懸念となる場合,非ハイブリッド演算子(Quantization/Early Exit on Edge,Partition on Mobile-Edge)よりも望ましいことが示唆された。
しかし、精度損失の最小化が問題となる場合、MLOpsのエンジニアは、レイテンシの削減または増加時に、それぞれEarly Exit/Partition(エッジ/モバイルエッジ)とQuantized Early Exit(エッジ)演算子よりも、エッジ上の量子化演算子のみを使用することを推奨する。
モバイルCPU/RAMリソースに制約されたシナリオでは、モバイルデプロイメントにおいて、モバイル層とエッジ層のパーティショニングが優先される。
小さい入力データサンプル(FCNなど)を持つモデルの場合、ネットワークに制約のあるクラウドデプロイメントは、Mobile/Edgeデプロイメントやパーティショニング戦略よりも優れた選択肢になる。
大規模な入力データサンプル(ResNet、ResNext、DUC)を持つモデルでは、クラウド/モバイルよりも高いネットワーク/計算能力を持つエッジ層が、パーティショニングやモバイル/クラウドデプロイメント戦略よりも実行可能な選択肢となる。
関連論文リスト
- On the Impact of White-box Deployment Strategies for Edge AI on Latency and Model Performance [14.116380148736221]
本研究の目的は、ホワイトボックス(トレーニングベース)とブラックボックス演算子のレイテンシトレードオフの精度を実証的に評価することである。
3つのホワイトボックス(QAT, プルーニング, 知識蒸留)、2つのブラックボックス(パーティション, SPTQ)とその組み合わせ演算子を含む推論実験を行った。
論文 参考訳(メタデータ) (2024-11-01T09:22:49Z) - Mobility and Cost Aware Inference Accelerating Algorithm for Edge
Intelligence [24.512525338942158]
近年,エッジインテリジェンス(EI)が広く採用されている。デバイス,エッジサーバ,クラウド間のモデルを分割することで,EIの性能が大幅に向上する。
ユーザモビリティのないモデルセグメンテーションは,これまでにも深く研究されてきた。
本稿では,エッジでの推論を高速化するためのモビリティとコストを考慮したモデルセグメンテーションと資源配分アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-27T10:04:02Z) - EdgeConvEns: Convolutional Ensemble Learning for Edge Intelligence [0.0]
Deep Edge Intelligenceは、計算能力に制限のあるエッジネットワークに、計算に高価なトレーニングを必要とするディープラーニングモデルをデプロイすることを目的としている。
本研究では、エッジ上の不均一な弱モデルを訓練し、エッジ上のデータが不均一に分散されている場所でアンサンブルを学習する、EdgeConvEnsという畳み込み型アンサンブル学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T20:07:32Z) - Asynchronous Semi-Decentralized Federated Edge Learning for
Heterogeneous Clients [3.983055670167878]
フェデレーションエッジ学習(FEEL)は、モバイルエッジネットワークのプライバシ保護のための分散学習フレームワークとして注目されている。
本研究では,複数のエッジサーバが協調して,エッジデバイスからのより多くのデータをトレーニング中に組み込む,新たな半分散FEEL(SD-FEEL)アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-12-09T07:39:31Z) - Computational Intelligence and Deep Learning for Next-Generation
Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。
本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。
特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-10-28T08:14:57Z) - Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。
私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文 参考訳(メタデータ) (2021-08-30T08:03:29Z) - Latency-Memory Optimized Splitting of Convolution Neural Networks for
Resource Constrained Edge Devices [1.6873748786804317]
我々は、エッジデバイスとクラウド間でCNNを実行することは、リソース制約のある最適化問題を解決することと同義であると主張している。
実世界のエッジデバイスでの実験では、LMOSはエッジで異なるCNNモデルの実行可能な実行を保証する。
論文 参考訳(メタデータ) (2021-07-19T19:39:56Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。