論文の概要: Variant Parallelism: Lightweight Deep Convolutional Models for
Distributed Inference on IoT Devices
- arxiv url: http://arxiv.org/abs/2210.08376v2
- Date: Sun, 11 Jun 2023 21:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:19:27.371653
- Title: Variant Parallelism: Lightweight Deep Convolutional Models for
Distributed Inference on IoT Devices
- Title(参考訳): Variant Parallelism:IoTデバイス上での分散推論のための軽量な深層畳み込みモデル
- Authors: Navidreza Asadi, Maziar Goudarzi
- Abstract要約: 2つの主要なテクニックは、リソース制約のあるIoTデバイスにモデルを分散する際に、リアルタイムの推論制限を満たすために一般的に使用される。
本稿では,主モデルの異なる変種が生成され,別々のマシンにデプロイ可能な,アンサンブルに基づくディープラーニング分散手法である変分並列性(VP)を提案する。
その結果、我々のモデルではパラメータが5.8-7.1x少なく、4.3-31x少ない乗算累積(MAC)、2.5-13.2倍の応答時間をMobileNetV2と比較できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Two major techniques are commonly used to meet real-time inference
limitations when distributing models across resource-constrained IoT devices:
(1) model parallelism (MP) and (2) class parallelism (CP). In MP, transmitting
bulky intermediate data (orders of magnitude larger than input) between devices
imposes huge communication overhead. Although CP solves this problem, it has
limitations on the number of sub-models. In addition, both solutions are fault
intolerant, an issue when deployed on edge devices. We propose variant
parallelism (VP), an ensemble-based deep learning distribution method where
different variants of a main model are generated and can be deployed on
separate machines. We design a family of lighter models around the original
model, and train them simultaneously to improve accuracy over single models.
Our experimental results on six common mid-sized object recognition datasets
demonstrate that our models can have 5.8-7.1x fewer parameters, 4.3-31x fewer
multiply-accumulations (MACs), and 2.5-13.2x less response time on atomic
inputs compared to MobileNetV2 while achieving comparable or higher accuracy.
Our technique easily generates several variants of the base architecture. Each
variant returns only 2k outputs 1 <= k <= (#classes/2), representing Top-k
classes, instead of tons of floating point values required in MP. Since each
variant provides a full-class prediction, our approach maintains higher
availability compared with MP and CP in presence of failure.
- Abstract(参考訳): リソースに制約のあるiotデバイスにモデルを分散する際に、リアルタイム推論の制限を満たすために一般的に使用される2つの主要なテクニックは、(1)モデル並列性(mp)と(2)クラス並列性(cp)である。
mpでは、デバイス間でかさばる中間データ(入力より桁違いに大きい順序)を送信すると、大きな通信オーバーヘッドがかかる。
CPはこの問題を解くが、サブモデルの数に制限がある。
さらに、どちらのソリューションもフォールトトレラントであり、エッジデバイスにデプロイすると問題が発生する。
本稿では,主モデルの異なる変種が生成され,別々のマシンにデプロイ可能な,アンサンブルに基づくディープラーニング分散手法である変分並列性(VP)を提案する。
我々は、オリジナルのモデルを中心に、より軽量なモデルのファミリーを設計し、それらを同時に訓練し、単一モデルよりも精度を向上させる。
5.8-7.1倍のパラメータ、4.3-31倍のマルチプリーアキュミュレーション(mac)、2.5-13.2倍の応答時間がmobilenetv2に比べて高い精度で達成できることを示した。
この手法はベースアーキテクチャのいくつかの変種を容易に生成する。
各変種は、MPで要求される浮動小数点値ではなく、トップkクラスを表す1 <= k <= (#classes/2) を出力する。
各変種はフルクラスの予測を提供するため,本手法は故障時にMPやCPと比較して高可用性を維持している。
関連論文リスト
- Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - Unified Anomaly Detection methods on Edge Device using Knowledge Distillation and Quantization [4.6651371876849]
欠陥検出を用いたほとんどの異常検出アプローチでは、各クラスに個別のモデルを適用する必要がある1クラスモデルを採用している。
本研究では,統一型マルチクラス構成について検討する。
実験により,マルチクラスモデルは標準MVTec ADデータセットの1クラスモデルと同等に動作することが示された。
論文 参考訳(メタデータ) (2024-07-03T10:04:48Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - AlpaServe: Statistical Multiplexing with Model Parallelism for Deep
Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。
本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文 参考訳(メタデータ) (2023-02-22T21:41:34Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。