論文の概要: Fast Inference of Tree Ensembles on ARM Devices
- arxiv url: http://arxiv.org/abs/2305.08579v1
- Date: Mon, 15 May 2023 12:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 14:45:33.255408
- Title: Fast Inference of Tree Ensembles on ARM Devices
- Title(参考訳): ARMデバイス上でのツリーアンサンブルの高速推論
- Authors: Simon Koschel, Sebastian Buschj\"ager, Claudio Lucchese, Katharina
Morik
- Abstract要約: 我々は、人気の高いQuickScorerアルゴリズムとその兄弟をIntelのAVXからARMのNEON命令セットに変換する。
第三に、ランダム森林における定点量子化の利用効果について検討する。
- 参考スコア(独自算出の注目度): 6.995377781193234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the ongoing integration of Machine Learning models into everyday life,
e.g. in the form of the Internet of Things (IoT), the evaluation of learned
models becomes more and more an important issue. Tree ensembles are one of the
best black-box classifiers available and routinely outperform more complex
classifiers. While the fast application of tree ensembles has already been
studied in the literature for Intel CPUs, they have not yet been studied in the
context of ARM CPUs which are more dominant for IoT applications. In this
paper, we convert the popular QuickScorer algorithm and its siblings from
Intel's AVX to ARM's NEON instruction set. Second, we extend our implementation
from ranking models to classification models such as Random Forests. Third, we
investigate the effects of using fixed-point quantization in Random Forests.
Our study shows that a careful implementation of tree traversal on ARM CPUs
leads to a speed-up of up to 9.4 compared to a reference implementation.
Moreover, quantized models seem to outperform models using floating-point
values in terms of speed in almost all cases, with a neglectable impact on the
predictive performance of the model. Finally, our study highlights
architectural differences between ARM and Intel CPUs and between different ARM
devices that imply that the best implementation depends on both the specific
forest as well as the specific device used for deployment.
- Abstract(参考訳): マシンラーニングモデルがIoT(Internet of Things)の形で日常生活に継続的に統合されていることから、学習モデルの評価はますます重要な問題となっている。
ツリーアンサンブルは最も優れたブラックボックス分類器の1つであり、通常より複雑な分類器よりも優れている。
ツリーアンサンブルの高速適用はすでにIntel CPUの文献で研究されているが、IoTアプリケーションに支配的なARM CPUの文脈ではまだ研究されていない。
本稿では、人気の高いQuickScorerアルゴリズムとその兄弟をIntelのAVXからARMのNEON命令セットに変換する。
第2に,階層モデルからランダムフォレストなどの分類モデルへ実装を拡張した。
第三に、ランダム森林における定点量子化の利用効果について検討する。
本研究は,ARM CPU上でツリートラバーサルを慎重に実装することで,参照実装と比較して最大9.4の高速化を実現していることを示す。
さらに、量子化モデルは、ほぼ全てのケースにおいて浮動小数点値を用いたモデルよりも優れており、モデルの予測性能には無視できる影響がある。
最後に、本研究では、armとintelのcpuと異なるarmデバイス間のアーキテクチャの違いに注目し、最適な実装は、特定のフォレストとデプロイに使用される特定のデバイスの両方に依存することを示唆する。
関連論文リスト
- LowFormer: Hardware Efficient Design for Convolutional Transformer Backbones [10.435069781620957]
効率的な視覚バックボーンの研究は、畳み込みとトランスフォーマーブロックの混合モデルに進化しつつある。
我々は、MACではなく、実際のスループットとレイテンシの観点から、一般的なモジュールとアーキテクチャ設計の選択を分析します。
マクロデザインとマイクロデザインを組み合わせることで,LowFormerと呼ばれる,ハードウェア効率のよいバックボーンネットワークの新たなファミリを作ります。
論文 参考訳(メタデータ) (2024-09-05T12:18:32Z) - Register Your Forests: Decision Tree Ensemble Optimization by Explicit CPU Register Allocation [3.737361598712633]
本稿では,決定木アンサンブルに対するコード生成手法を提案し,単一の変換ステップ内で機械組立コードを生成する。
その結果,決定木アンサンブル推論の性能は大幅に向上できることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T09:17:22Z) - Grassroots Operator Search for Model Edge Adaptation [2.1756721838833797]
ハードウェア対応ニューラルアーキテクチャ(HW-NAS)は、効率的なディープラーニングアーキテクチャの設計にますます利用されている。
効率的な演算子置換を探索するために,Grassroots Operator Search (GOS) 手法を提案する。
提案手法は,2つのエッジデバイスにおいて,精度を保ちながら,最小2.2倍の高速化を実現した。
論文 参考訳(メタデータ) (2023-09-20T12:15:58Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Towards a learning-based performance modeling for accelerating Deep
Neural Networks [1.1549572298362785]
我々は、畳み込みニューラルネットワーク(CNN)を最適化するために、機械学習技術に基づく予測モデルの調査を開始する。
MidgardベースのARM Mali GPUの予備実験では、我々の予測モデルはライブラリが手作業で選択したすべての畳み込み演算子よりも優れていた。
論文 参考訳(メタデータ) (2022-12-09T18:28:07Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - Optimization of Decision Tree Evaluation Using SIMD Instructions [0.0]
人気のCatBoostライブラリの祖先であるMatrixNetを探索する。
本稿では,より効率的にモデルを評価するために,AVX命令セットが与える機会について検討する。
論文 参考訳(メタデータ) (2022-05-15T15:12:40Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - ARMS: Antithetic-REINFORCE-Multi-Sample Gradient for Binary Variables [60.799183326613395]
ReINFORCEを用いたマルチサンプル勾配推定器
ARMSはコプラを用いて、相互に合成されたサンプルを何個でも生成する。
生成モデルを訓練するための複数のデータセット上でARMSを評価し,実験結果から競合する手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-28T23:19:54Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。