Fugu-MT 論文翻訳(概要): Dynamic Decision Tree Ensembles for Energy-Efficient Inference on IoT Edge Nodes

論文の概要: Dynamic Decision Tree Ensembles for Energy-Efficient Inference on IoT Edge Nodes

arxiv url: http://arxiv.org/abs/2306.09789v1
Date: Fri, 16 Jun 2023 11:59:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-19 13:58:47.410191
Title: Dynamic Decision Tree Ensembles for Energy-Efficient Inference on IoT Edge Nodes
Title（参考訳）: IoTエッジノード上のエネルギー効率の良い推論のための動的決定木アンサンブル
Authors: Francesco Daghero, Alessio Burrello, Enrico Macii, Paolo Montuschi, Massimo Poncino and Daniele Jahier Pagliari
Abstract要約: ランダムフォレスト (RFs) やグラディエント・ブースティング (GBTs) のような決定木アンサンブルは、その複雑さが比較的低いため、この作業に特に適している。本稿では、遅延/エネルギー目標と処理された入力の複雑さの両方に基づいて実行された木数を調整する動的アンサンブルの使用を提案する。我々は、Pythonアンサンブルを最適化されたCコードに変換するツールを設計し、これらのアルゴリズムをマルチコアの低消費電力IoTデバイスにデプロイすることに重点を置いている。
参考スコア（独自算出の注目度）: 12.99136544903102
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the increasing popularity of Internet of Things (IoT) devices, there is a growing need for energy-efficient Machine Learning (ML) models that can run on constrained edge nodes. Decision tree ensembles, such as Random Forests (RFs) and Gradient Boosting (GBTs), are particularly suited for this task, given their relatively low complexity compared to other alternatives. However, their inference time and energy costs are still significant for edge hardware. Given that said costs grow linearly with the ensemble size, this paper proposes the use of dynamic ensembles, that adjust the number of executed trees based both on a latency/energy target and on the complexity of the processed input, to trade-off computational cost and accuracy. We focus on deploying these algorithms on multi-core low-power IoT devices, designing a tool that automatically converts a Python ensemble into optimized C code, and exploring several optimizations that account for the available parallelism and memory hierarchy. We extensively benchmark both static and dynamic RFs and GBTs on three state-of-the-art IoT-relevant datasets, using an 8-core ultra-lowpower System-on-Chip (SoC), GAP8, as the target platform. Thanks to the proposed early-stopping mechanisms, we achieve an energy reduction of up to 37.9% with respect to static GBTs (8.82 uJ vs 14.20 uJ per inference) and 41.7% with respect to static RFs (2.86 uJ vs 4.90 uJ per inference), without losing accuracy compared to the static model.
Abstract（参考訳）: IoT(Internet of Things)デバイスの普及に伴い、制約のあるエッジノード上で実行できるエネルギー効率のよい機械学習(ML)モデルの必要性が高まっている。ランダムフォレスト (RF) やグラディエント・ブースティング (GBT) のような決定木アンサンブルは、他の代替よりも比較的複雑さが低いため、特にこの作業に適している。しかし、その推論時間とエネルギーコストはエッジハードウェアにとって依然として重要である。このようなコストがアンサンブルサイズで線形に増加することを考慮し,遅延/エネルギー目標と処理入力の複雑さの両方に基づいて実行木数を調整する動的アンサンブルの利用を提案し,計算コストと精度のトレードオフについて述べる。我々は、これらのアルゴリズムをマルチコアの低消費電力IoTデバイスにデプロイし、Pythonアンサンブルを最適化されたCコードに変換するツールを設計し、利用可能な並列性とメモリ階層を考慮に入れたいくつかの最適化を検討している。我々は8コア超低消費電力のSystem-on-Chip(SoC)、GAP8をターゲットプラットフォームとして、3つの最先端IoT関連データセットに対して、静的RFとGBTの両方を広範囲にベンチマークした。提案した早期停止機構により、静的GBT (8.82 uJ vs 14.20 uJ per inference) に対して最大37.9%のエネルギー削減を実現し、静的RF (2.86 uJ vs 4.90 uJ per inference) に対して41.7%のエネルギー削減を実現した。

関連論文リスト

FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
ACNPU: A 4.75TOPS/W 1080P@30FPS Super Resolution Accelerator with Decoupled Asymmetric Convolution [0.0502254944841629]
深層学習駆動型超解像(SR)は従来の技術より優れているが、高複雑性とメモリ帯域幅の課題に直面している。本稿では,エネルギー効率の高いSR加速器ACNPUを提案する。 ACNPUは27層モデルで画質を0.34dB向上させるが、FSRCNNよりも36%の複雑さを必要とする。
論文参考訳（メタデータ） (2023-08-30T07:23:32Z)
Efficient Deep Learning Models for Privacy-preserving People Counting on Low-resolution Infrared Arrays [11.363207467478134]
赤外線(IR)アレイセンサーは低コストで省エネでプライバシー保護のソリューションを提供する。これまでの研究は、ディープラーニング(DL)がこのタスクにおいて優れたパフォーマンスが得られることを示した。商業用8x8アレイから収集したIR画像からなる新しいデータセット上で,6種類のDLアーキテクチャを比較した。
論文参考訳（メタデータ） (2023-04-12T15:29:28Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文参考訳（メタデータ） (2021-09-21T09:57:21Z)
EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。 We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文参考訳（メタデータ） (2020-11-28T19:21:47Z)
Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文参考訳（メタデータ） (2020-09-04T20:17:42Z)
Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。脳波信号を分類するためのディープラーニングモデルが登場した。これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文参考訳（メタデータ） (2020-04-24T12:29:03Z)
PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文参考訳（メタデータ） (2020-04-23T02:26:40Z)
Pre-defined Sparsity for Low-Complexity Convolutional Neural Networks [9.409651543514615]
この研究は、フィルタ内で定期的に繰り返されるサポートセットを持つ、事前に定義されたスパース2Dカーネルを持つ畳み込みレイヤを導入している。周期的なスパースカーネルの効率的な保存のため、パラメータの節約はエネルギー効率を大幅に向上させることができる。
論文参考訳（メタデータ） (2020-01-29T07:10:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。