論文の概要: Adaptive Resolution Inference (ARI): Energy-Efficient Machine Learning for Internet of Things
- arxiv url: http://arxiv.org/abs/2408.14528v1
- Date: Mon, 26 Aug 2024 16:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 17:51:48.952075
- Title: Adaptive Resolution Inference (ARI): Energy-Efficient Machine Learning for Internet of Things
- Title(参考訳): アダプティブ・レゾリューション・推論(ARI):モノのインターネットのためのエネルギー効率の良い機械学習
- Authors: Ziheng Wang, Pedro Reviriego, Farzad Niknia, Javier Conde, Shanshan Liu, Fabrizio Lombardi,
- Abstract要約: Internet of Thingsデバイスにおける機械学習の実装は、限られたエネルギーと計算資源のために、重大な運用上の問題を引き起こす。
本稿では,エネルギー散逸とモデル性能の新たなトレードオフを評価する新しい手法である適応分解能推論(ARI)を提案する。
- 参考スコア(独自算出の注目度): 11.802983172874901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The implementation of machine learning in Internet of Things devices poses significant operational challenges due to limited energy and computation resources. In recent years, significant efforts have been made to implement simplified ML models that can achieve reasonable performance while reducing computation and energy, for example by pruning weights in neural networks, or using reduced precision for the parameters and arithmetic operations. However, this type of approach is limited by the performance of the ML implementation, i.e., by the loss for example in accuracy due to the model simplification. In this article, we present adaptive resolution inference (ARI), a novel approach that enables to evaluate new tradeoffs between energy dissipation and model performance in ML implementations. The main principle of the proposed approach is to run inferences with reduced precision (quantization) and use the margin over the decision threshold to determine if either the result is reliable, or the inference must run with the full model. The rationale is that quantization only introduces small deviations in the inference scores, such that if the scores have a sufficient margin over the decision threshold, it is unlikely that the full model would have a different result. Therefore, we can run the quantized model first, and only when the scores do not have a sufficient margin, the full model is run. This enables most inferences to run with the reduced precision model and only a small fraction requires the full model, so significantly reducing computation and energy while not affecting model performance. The proposed ARI approach is presented, analyzed in detail, and evaluated using different data sets for floating-point and stochastic computing implementations. The results show that ARI can significantly reduce the energy for inference in different configurations with savings between 40% and 85%.
- Abstract(参考訳): Internet of Thingsデバイスにおける機械学習の実装は、限られたエネルギーと計算資源のために、重大な運用上の問題を引き起こす。
近年、ニューラルネットワークの重み付けやパラメータや算術演算の精度の低下など、計算とエネルギーの削減を図りつつ、合理的な性能を実現するため、単純化されたMLモデルの実装に多大な努力が払われている。
しかし、この種のアプローチはMLの実装の性能、すなわちモデルの単純化による精度の低下によって制限される。
本稿では,アダプティブ・レゾリューション・推論(ARI)を提案する。この手法により,ML実装におけるエネルギー散逸とモデル性能の新たなトレードオフを評価できる。
提案手法の主な原理は、精度の低下(量子化)で推論を実行し、決定しきい値よりもマージンを使い、結果が信頼できるか、あるいは推論が完全なモデルで実行されなければならないかを決定することである。
理論的には、量子化は推論スコアに小さな偏差しか導入せず、もしスコアが決定しきい値よりも十分なマージンを持つなら、完全なモデルが異なる結果をもたらす可能性は低い。
したがって、まず量子化モデルを実行することができ、スコアが十分なマージンを持っていない場合にのみ、完全なモデルを実行することができる。
これにより、ほとんどの推論は精度の低いモデルで実行でき、完全なモデルを必要とするのはごくわずかしかなく、モデルの性能に影響を与えることなく計算とエネルギーを著しく削減する。
提案手法は,浮動小数点および確率計算の実装のための異なるデータセットを用いて,より詳細に解析し,評価する。
その結果、ARIは40%から85%の節約率で異なる構成で推論のエネルギーを著しく削減できることがわかった。
関連論文リスト
- Model aggregation: minimizing empirical variance outperforms minimizing
empirical error [0.29008108937701327]
多様なモデルからの予測を単一のより正確な出力に集約する,データ駆動型フレームワークを提案する。
モデルはブラックボックス関数として扱う、モデルに依存しない、最小限の仮定を必要とする、広範囲のモデルからの出力を組み合わせることができる。
従来の解法と機械学習モデルをうまく統合して、堅牢性と精度の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-09-25T18:33:21Z) - Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE [68.6018458996143]
本稿では,量子化と早期出口動的ネットワークを組み合わせたより一般的な動的ネットワークQuEEを提案する。
我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。
提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
論文 参考訳(メタデータ) (2024-06-20T15:25:13Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Adaptive Sparse Gaussian Process [0.0]
これらの問題に対処できる最初の適応スパースガウスプロセス(GP)を提案する。
まず,変分スパースGPアルゴリズムを変形係数によって適応的に再構成する。
そこで我々は,新しいサンプルが到着するたびに,スパースGPモデルの単一誘導点と残りのモデルパラメータを同時に更新することを提案する。
論文 参考訳(メタデータ) (2023-02-20T21:34:36Z) - Fast Exploration of the Impact of Precision Reduction on Spiking Neural
Networks [63.614519238823206]
ターゲットハードウェアがコンピューティングの端に達すると、スパイキングニューラルネットワーク(SNN)が実用的な選択となる。
我々は、近似誤差を伝播するそのようなモデルの能力を生かした探索手法を開発するために、インターヴァル算術(IA)モデルを用いる。
論文 参考訳(メタデータ) (2022-11-22T15:08:05Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Variational Inference with NoFAS: Normalizing Flow with Adaptive
Surrogate for Computationally Expensive Models [7.217783736464403]
マルコフ連鎖モンテカルロのようなサンプリングに基づくアプローチの使用は、それぞれの可能性評価が計算的に高価であるときに難解になる可能性がある。
変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にしか成長しない計算コストによって特徴づけられる。
本稿では,ニューラルネットワークサロゲートモデルの正規化フローパラメータと重みを代わりに更新する最適化戦略である,適応サロゲートを用いた正規化フロー(NoFAS)を提案する。
論文 参考訳(メタデータ) (2021-08-28T14:31:45Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。