Fugu-MT 論文翻訳(概要): Variant Parallelism: Lightweight Deep Convolutional Models for Distributed Inference on IoT Devices

論文の概要: Variant Parallelism: Lightweight Deep Convolutional Models for Distributed Inference on IoT Devices

arxiv url: http://arxiv.org/abs/2210.08376v2
Date: Sun, 11 Jun 2023 21:10:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 02:19:27.371653
Title: Variant Parallelism: Lightweight Deep Convolutional Models for Distributed Inference on IoT Devices
Title（参考訳）: Variant Parallelism:IoTデバイス上での分散推論のための軽量な深層畳み込みモデル
Authors: Navidreza Asadi, Maziar Goudarzi
Abstract要約: 2つの主要なテクニックは、リソース制約のあるIoTデバイスにモデルを分散する際に、リアルタイムの推論制限を満たすために一般的に使用される。本稿では,主モデルの異なる変種が生成され,別々のマシンにデプロイ可能な,アンサンブルに基づくディープラーニング分散手法である変分並列性(VP)を提案する。その結果、我々のモデルではパラメータが5.8-7.1x少なく、4.3-31x少ない乗算累積(MAC)、2.5-13.2倍の応答時間をMobileNetV2と比較できることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Two major techniques are commonly used to meet real-time inference limitations when distributing models across resource-constrained IoT devices: (1) model parallelism (MP) and (2) class parallelism (CP). In MP, transmitting bulky intermediate data (orders of magnitude larger than input) between devices imposes huge communication overhead. Although CP solves this problem, it has limitations on the number of sub-models. In addition, both solutions are fault intolerant, an issue when deployed on edge devices. We propose variant parallelism (VP), an ensemble-based deep learning distribution method where different variants of a main model are generated and can be deployed on separate machines. We design a family of lighter models around the original model, and train them simultaneously to improve accuracy over single models. Our experimental results on six common mid-sized object recognition datasets demonstrate that our models can have 5.8-7.1x fewer parameters, 4.3-31x fewer multiply-accumulations (MACs), and 2.5-13.2x less response time on atomic inputs compared to MobileNetV2 while achieving comparable or higher accuracy. Our technique easily generates several variants of the base architecture. Each variant returns only 2k outputs 1 <= k <= (#classes/2), representing Top-k classes, instead of tons of floating point values required in MP. Since each variant provides a full-class prediction, our approach maintains higher availability compared with MP and CP in presence of failure.
Abstract（参考訳）: リソースに制約のあるiotデバイスにモデルを分散する際に、リアルタイム推論の制限を満たすために一般的に使用される2つの主要なテクニックは、(1)モデル並列性(mp)と(2)クラス並列性(cp)である。 mpでは、デバイス間でかさばる中間データ(入力より桁違いに大きい順序)を送信すると、大きな通信オーバーヘッドがかかる。 CPはこの問題を解くが、サブモデルの数に制限がある。さらに、どちらのソリューションもフォールトトレラントであり、エッジデバイスにデプロイすると問題が発生する。本稿では,主モデルの異なる変種が生成され,別々のマシンにデプロイ可能な,アンサンブルに基づくディープラーニング分散手法である変分並列性(VP)を提案する。我々は、オリジナルのモデルを中心に、より軽量なモデルのファミリーを設計し、それらを同時に訓練し、単一モデルよりも精度を向上させる。 5.8-7.1倍のパラメータ、4.3-31倍のマルチプリーアキュミュレーション(mac)、2.5-13.2倍の応答時間がmobilenetv2に比べて高い精度で達成できることを示した。この手法はベースアーキテクチャのいくつかの変種を容易に生成する。各変種は、MPで要求される浮動小数点値ではなく、トップkクラスを表す1 <= k <= (#classes/2) を出力する。各変種はフルクラスの予測を提供するため,本手法は故障時にMPやCPと比較して高可用性を維持している。

関連論文リスト

Priority-Aware Model-Distributed Inference at Edge Networks [6.97067164616875]
分散推論技術は、データ分散スキームとモデル分散スキームに広く分類することができる。データ分散推論(DDI)では、各ワーカーは機械学習(ML)モデル全体を運ぶが、データのサブセットのみを処理する。新たなパラダイムはモデル分散推論(MDI)であり、各ワーカはMLレイヤのサブセットのみを格納する。
論文参考訳（メタデータ） (2024-12-16T22:01:55Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。 2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文参考訳（メタデータ） (2024-07-07T14:21:04Z)
Unified Anomaly Detection methods on Edge Device using Knowledge Distillation and Quantization [4.6651371876849]
欠陥検出を用いたほとんどの異常検出アプローチでは、各クラスに個別のモデルを適用する必要がある1クラスモデルを採用している。本研究では,統一型マルチクラス構成について検討する。実験により,マルチクラスモデルは標準MVTec ADデータセットの1クラスモデルと同等に動作することが示された。
論文参考訳（メタデータ） (2024-07-03T10:04:48Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文参考訳（メタデータ） (2023-02-22T21:41:34Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。