論文の概要: Fast Inference of Tree Ensembles on ARM Devices
- arxiv url: http://arxiv.org/abs/2305.08579v1
- Date: Mon, 15 May 2023 12:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 14:45:33.255408
- Title: Fast Inference of Tree Ensembles on ARM Devices
- Title(参考訳): ARMデバイス上でのツリーアンサンブルの高速推論
- Authors: Simon Koschel, Sebastian Buschj\"ager, Claudio Lucchese, Katharina
Morik
- Abstract要約: 我々は、人気の高いQuickScorerアルゴリズムとその兄弟をIntelのAVXからARMのNEON命令セットに変換する。
第三に、ランダム森林における定点量子化の利用効果について検討する。
- 参考スコア(独自算出の注目度): 6.995377781193234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the ongoing integration of Machine Learning models into everyday life,
e.g. in the form of the Internet of Things (IoT), the evaluation of learned
models becomes more and more an important issue. Tree ensembles are one of the
best black-box classifiers available and routinely outperform more complex
classifiers. While the fast application of tree ensembles has already been
studied in the literature for Intel CPUs, they have not yet been studied in the
context of ARM CPUs which are more dominant for IoT applications. In this
paper, we convert the popular QuickScorer algorithm and its siblings from
Intel's AVX to ARM's NEON instruction set. Second, we extend our implementation
from ranking models to classification models such as Random Forests. Third, we
investigate the effects of using fixed-point quantization in Random Forests.
Our study shows that a careful implementation of tree traversal on ARM CPUs
leads to a speed-up of up to 9.4 compared to a reference implementation.
Moreover, quantized models seem to outperform models using floating-point
values in terms of speed in almost all cases, with a neglectable impact on the
predictive performance of the model. Finally, our study highlights
architectural differences between ARM and Intel CPUs and between different ARM
devices that imply that the best implementation depends on both the specific
forest as well as the specific device used for deployment.
- Abstract(参考訳): マシンラーニングモデルがIoT(Internet of Things)の形で日常生活に継続的に統合されていることから、学習モデルの評価はますます重要な問題となっている。
ツリーアンサンブルは最も優れたブラックボックス分類器の1つであり、通常より複雑な分類器よりも優れている。
ツリーアンサンブルの高速適用はすでにIntel CPUの文献で研究されているが、IoTアプリケーションに支配的なARM CPUの文脈ではまだ研究されていない。
本稿では、人気の高いQuickScorerアルゴリズムとその兄弟をIntelのAVXからARMのNEON命令セットに変換する。
第2に,階層モデルからランダムフォレストなどの分類モデルへ実装を拡張した。
第三に、ランダム森林における定点量子化の利用効果について検討する。
本研究は,ARM CPU上でツリートラバーサルを慎重に実装することで,参照実装と比較して最大9.4の高速化を実現していることを示す。
さらに、量子化モデルは、ほぼ全てのケースにおいて浮動小数点値を用いたモデルよりも優れており、モデルの予測性能には無視できる影響がある。
最後に、本研究では、armとintelのcpuと異なるarmデバイス間のアーキテクチャの違いに注目し、最適な実装は、特定のフォレストとデプロイに使用される特定のデバイスの両方に依存することを示唆する。
関連論文リスト
- Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - Grassroots Operator Search for Model Edge Adaptation [2.1756721838833797]
ハードウェア対応ニューラルアーキテクチャ(HW-NAS)は、効率的なディープラーニングアーキテクチャの設計にますます利用されている。
効率的な演算子置換を探索するために,Grassroots Operator Search (GOS) 手法を提案する。
提案手法は,2つのエッジデバイスにおいて,精度を保ちながら,最小2.2倍の高速化を実現した。
論文 参考訳(メタデータ) (2023-09-20T12:15:58Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Towards a learning-based performance modeling for accelerating Deep
Neural Networks [1.1549572298362785]
我々は、畳み込みニューラルネットワーク(CNN)を最適化するために、機械学習技術に基づく予測モデルの調査を開始する。
MidgardベースのARM Mali GPUの予備実験では、我々の予測モデルはライブラリが手作業で選択したすべての畳み込み演算子よりも優れていた。
論文 参考訳(メタデータ) (2022-12-09T18:28:07Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - Optimization of Decision Tree Evaluation Using SIMD Instructions [0.0]
人気のCatBoostライブラリの祖先であるMatrixNetを探索する。
本稿では,より効率的にモデルを評価するために,AVX命令セットが与える機会について検討する。
論文 参考訳(メタデータ) (2022-05-15T15:12:40Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - ARMS: Antithetic-REINFORCE-Multi-Sample Gradient for Binary Variables [60.799183326613395]
ReINFORCEを用いたマルチサンプル勾配推定器
ARMSはコプラを用いて、相互に合成されたサンプルを何個でも生成する。
生成モデルを訓練するための複数のデータセット上でARMSを評価し,実験結果から競合する手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-28T23:19:54Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。