論文の概要: On the Impact of White-box Deployment Strategies for Edge AI on Latency and Model Performance
- arxiv url: http://arxiv.org/abs/2411.00907v1
- Date: Fri, 01 Nov 2024 09:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:47.256419
- Title: On the Impact of White-box Deployment Strategies for Edge AI on Latency and Model Performance
- Title(参考訳): エッジAIのホワイトボックス展開戦略がレイテンシとモデルパフォーマンスに及ぼす影響について
- Authors: Jaskirat Singh, Bram Adams, Ahmed E. Hassan,
- Abstract要約: 本研究の目的は、ホワイトボックス(トレーニングベース)とブラックボックス演算子のレイテンシトレードオフの精度を実証的に評価することである。
3つのホワイトボックス(QAT, プルーニング, 知識蒸留)、2つのブラックボックス(パーティション, SPTQ)とその組み合わせ演算子を含む推論実験を行った。
- 参考スコア(独自算出の注目度): 14.116380148736221
- License:
- Abstract: To help MLOps engineers decide which operator to use in which deployment scenario, this study aims to empirically assess the accuracy vs latency trade-off of white-box (training-based) and black-box operators (non-training-based) and their combinations in an Edge AI setup. We perform inference experiments including 3 white-box (i.e., QAT, Pruning, Knowledge Distillation), 2 black-box (i.e., Partition, SPTQ), and their combined operators (i.e., Distilled SPTQ, SPTQ Partition) across 3 tiers (i.e., Mobile, Edge, Cloud) on 4 commonly-used Computer Vision and Natural Language Processing models to identify the effective strategies, considering the perspective of MLOps Engineers. Our Results indicate that the combination of Distillation and SPTQ operators (i.e., DSPTQ) should be preferred over non-hybrid operators when lower latency is required in the edge at small to medium accuracy drop. Among the non-hybrid operators, the Distilled operator is a better alternative in both mobile and edge tiers for lower latency performance at the cost of small to medium accuracy loss. Moreover, the operators involving distillation show lower latency in resource-constrained tiers (Mobile, Edge) compared to the operators involving Partitioning across Mobile and Edge tiers. For textual subject models, which have low input data size requirements, the Cloud tier is a better alternative for the deployment of operators than the Mobile, Edge, or Mobile-Edge tier (the latter being used for operators involving partitioning). In contrast, for image-based subject models, which have high input data size requirements, the Edge tier is a better alternative for operators than Mobile, Edge, or their combination.
- Abstract(参考訳): MLOpsのエンジニアが、デプロイシナリオのどのオペレータを使用するかを決定するのに役立つために、この研究は、Edge AIセットアップで、ホワイトボックス(トレーニングベース)とブラックボックスオペレータ(トレーニングベース)との組み合わせの正確さとレイテンシのトレードオフを実証的に評価することを目的としている。
3つのホワイトボックス(QAT,Pruning,Knowledge Distillation),2つのブラックボックス(パーティション,SPTQ)とそれらの組み合わせ演算子(Distilled SPTQ,SPTQ Partition)を3つの階層(モバイル,エッジ,クラウド)に分けて推論実験を行い,MLOpsエンジニアの視点を考慮し,有効戦略の同定を行う。
以上の結果から,小~中程度の精度低下でエッジに低レイテンシを必要とする場合,DSPTQ演算子とDSPTQ演算子の組み合わせが非ハイブリド演算子よりも望ましいことが示唆された。
非ハイブリッド演算子の中で、Distilled演算子はモバイル層とエッジ層の両方において、小型から中程度の精度の損失でレイテンシ性能を低下させる優れた代替手段である。
さらに, 蒸留を含むオペレータは, 資源制約層 (Mobile, Edge) のレイテンシが, モバイル層とエッジ層をまたがるパーティショニングを含む演算子に比べて低かった。
入力データサイズが低いテキストモデルでは、Cloudティアは、Mobile、Edge、Mobile-Edgeティア(後者はパーティショニングを含むオペレータに使用される)よりもオペレータのデプロイの選択肢として優れている。
対照的に、高い入力データサイズ要件を持つ画像ベースの対象モデルでは、Edgeティアは、Mobile、Edge、またはそれらの組み合わせよりも演算子にとってより良い選択肢である。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - On the Impact of Black-box Deployment Strategies for Edge AI on Latency and Model Performance [14.116380148736221]
この研究は、異なるEdge AIデプロイメント戦略の精度と推論時間のトレードオフを実証的に評価することを目的としている。
3つのデプロイメントオペレータ(パーティショニング、量子化、アーリーエグジット)と3つのデプロイメント層(モバイル、エッジ、クラウド)を含む推論実験を行います。
以上の結果から,ハイブリッドなQuantization+Early Exit演算子を用いたエッジ配置が非ハイブリッド演算子よりも望ましいことが示唆された。
論文 参考訳(メタデータ) (2024-03-25T20:09:46Z) - SignSGD with Federated Voting [69.06621279967865]
SignSGD with majority voting (signSGD-MV) は1ビット量子化により通信コストを大幅に削減できる効果的な分散学習アルゴリズムである。
我々は、テキストフェデレート投票(signSGD-FV)を用いた新しいサインSGDを提案する。
連合投票の考え方は、学習可能な重量を利用して多数決を行うことである。
提案手法は, エッジデバイスが不均一なミニバッチサイズを使用する場合でも, 理論的収束を保証する。
論文 参考訳(メタデータ) (2024-03-25T02:32:43Z) - Mobility and Cost Aware Inference Accelerating Algorithm for Edge
Intelligence [24.512525338942158]
近年,エッジインテリジェンス(EI)が広く採用されている。デバイス,エッジサーバ,クラウド間のモデルを分割することで,EIの性能が大幅に向上する。
ユーザモビリティのないモデルセグメンテーションは,これまでにも深く研究されてきた。
本稿では,エッジでの推論を高速化するためのモビリティとコストを考慮したモデルセグメンテーションと資源配分アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-27T10:04:02Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - EdgeConvEns: Convolutional Ensemble Learning for Edge Intelligence [0.0]
Deep Edge Intelligenceは、計算能力に制限のあるエッジネットワークに、計算に高価なトレーニングを必要とするディープラーニングモデルをデプロイすることを目的としている。
本研究では、エッジ上の不均一な弱モデルを訓練し、エッジ上のデータが不均一に分散されている場所でアンサンブルを学習する、EdgeConvEnsという畳み込み型アンサンブル学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T20:07:32Z) - Federated Learning Using Three-Operator ADMM [13.890395923545181]
フェデレートラーニング(FL)は、ユーザの側で生成されたデータの送信を避ける。
本稿では,エッジサーバ上のスムーズなコスト関数を利用したFedTOP-ADMMを提案する。
論文 参考訳(メタデータ) (2022-11-08T10:50:29Z) - Task-Oriented Over-the-Air Computation for Multi-Device Edge AI [57.50247872182593]
エッジAIをサポートするための6Gネットワークは、AIタスクの効率的かつ効率的な実行に焦点を当てたタスク指向のテクニックを備えている。
本稿では,マルチデバイススプリット推論システムにおけるタスク指向オーバー・ザ・エア計算(AirComp)方式を提案する。
論文 参考訳(メタデータ) (2022-11-02T16:35:14Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。