論文の概要: GPUTreeShap: Massively Parallel Exact Calculation of SHAP Scores for
Tree Ensembles
- arxiv url: http://arxiv.org/abs/2010.13972v3
- Date: Thu, 3 Feb 2022 11:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:01:42.439838
- Title: GPUTreeShap: Massively Parallel Exact Calculation of SHAP Scores for
Tree Ensembles
- Title(参考訳): GPUTreeShap:木組のためのSHAPスコアの大規模並列実行計算
- Authors: Rory Mitchell, Eibe Frank, Geoffrey Holmes
- Abstract要約: 本稿では,グラフィック処理ユニット上での大規模並列計算に適したツリーサップアルゴリズムを提案する。
我々は,最先端のマルチコアCPU実装を用いて,SHAP値の最大19倍,SHAP値の最大340倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 0.8057006406834467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SHAP (SHapley Additive exPlanation) values provide a game theoretic
interpretation of the predictions of machine learning models based on Shapley
values. While exact calculation of SHAP values is computationally intractable
in general, a recursive polynomial-time algorithm called TreeShap is available
for decision tree models. However, despite its polynomial time complexity,
TreeShap can become a significant bottleneck in practical machine learning
pipelines when applied to large decision tree ensembles. Unfortunately, the
complicated TreeShap algorithm is difficult to map to hardware accelerators
such as GPUs. In this work, we present GPUTreeShap, a reformulated TreeShap
algorithm suitable for massively parallel computation on graphics processing
units. Our approach first preprocesses each decision tree to isolate variable
sized sub-problems from the original recursive algorithm, then solves a bin
packing problem, and finally maps sub-problems to single-instruction,
multiple-thread (SIMT) tasks for parallel execution with specialised hardware
instructions. With a single NVIDIA Tesla V100-32 GPU, we achieve speedups of up
to 19x for SHAP values, and speedups of up to 340x for SHAP interaction values,
over a state-of-the-art multi-core CPU implementation executed on two 20-core
Xeon E5-2698 v4 2.2 GHz CPUs. We also experiment with multi-GPU computing using
eight V100 GPUs, demonstrating throughput of 1.2M rows per second -- equivalent
CPU-based performance is estimated to require 6850 CPU cores.
- Abstract(参考訳): shap(shapley additive description)値は、shapley値に基づく機械学習モデルの予測のゲーム理論的な解釈を提供する。
SHAP値の正確な計算は一般に計算可能であるが、決定木モデルではTreeShapと呼ばれる再帰多項式時間アルゴリズムが利用できる。
しかし、多項式時間の複雑さにもかかわらず、大きな決定木アンサンブルに適用した場合、TreeShapは実用的な機械学習パイプラインにおいて重要なボトルネックとなる可能性がある。
残念ながら、複雑なTreeShapアルゴリズムはGPUのようなハードウェアアクセラレータにマップすることは難しい。
本稿では,グラフィック処理ユニット上での超並列計算に適した修正treeshapアルゴリズムであるgputreeshapを提案する。
提案手法では,各決定木を前処理して,変数サイズのサブプロブレムを元の再帰的アルゴリズムから分離し,ビンパッキング問題を解くとともに,サブプロブレムを単一命令,複数スレッド(SIMT)タスクにマッピングし,ハードウェア命令を並列実行させる。
1つのNVIDIA Tesla V100-32 GPUで、20コアのXeon E5-2698 v4 2.2 GHz CPU上で実行された最先端のマルチコアCPU実装を使用して、SHAP値の最大19倍、SHAPインタラクション値の最大340倍のスピードアップを達成する。
また、8つのV100 GPUを使用してマルチGPUコンピューティングを実験し、毎秒1.2M行のスループットを実証した。
関連論文リスト
- INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Parallel Tree Kernel Computation [0.0]
2つの有限木からなる木核の計算のための逐次アルゴリズムの並列実装を考案する。
その結果,提案した並列アルゴリズムは遅延の点で逐次アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-12T18:16:45Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Systolic Computing on GPUs for Productive Performance [2.8064596842326575]
我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。
プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。
コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
論文 参考訳(メタデータ) (2020-10-29T18:49:54Z) - At-Scale Sparse Deep Neural Network Inference with Efficient GPU
Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。
スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。
本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文 参考訳(メタデータ) (2020-07-28T12:09:43Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。