論文の概要: Quantized Training of Gradient Boosting Decision Trees
- arxiv url: http://arxiv.org/abs/2207.09682v1
- Date: Wed, 20 Jul 2022 06:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 14:02:12.890803
- Title: Quantized Training of Gradient Boosting Decision Trees
- Title(参考訳): グラディエントブースティング決定木の量子化トレーニング
- Authors: Yu Shi, Guolin Ke, Zhuoming Chen, Shuxin Zheng, Tie-Yan Liu
- Abstract要約: 我々は,GBDTのトレーニングアルゴリズムにおいて,高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。
低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。
大規模なデータセット上でのSOTA GBDTシステムと比較して、単純な量子化戦略の2$times$スピードアップを観測する。
- 参考スコア(独自算出の注目度): 84.97123593657584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed significant success in Gradient Boosting Decision
Trees (GBDT) for a wide range of machine learning applications. Generally, a
consensus about GBDT's training algorithms is gradients and statistics are
computed based on high-precision floating points. In this paper, we investigate
an essentially important question which has been largely ignored by the
previous literature: how many bits are needed for representing gradients in
training GBDT? To solve this mystery, we propose to quantize all the
high-precision gradients in a very simple yet effective way in the GBDT's
training algorithm. Surprisingly, both our theoretical analysis and empirical
studies show that the necessary precisions of gradients without hurting any
performance can be quite low, e.g., 2 or 3 bits. With low-precision gradients,
most arithmetic operations in GBDT training can be replaced by integer
operations of 8, 16, or 32 bits. Promisingly, these findings may pave the way
for much more efficient training of GBDT from several aspects: (1) speeding up
the computation of gradient statistics in histograms; (2) compressing the
communication cost of high-precision statistical information during distributed
training; (3) the inspiration of utilization and development of hardware
architectures which well support low-precision computation for GBDT training.
Benchmarked on CPU, GPU, and distributed clusters, we observe up to 2$\times$
speedup of our simple quantization strategy compared with SOTA GBDT systems on
extensive datasets, demonstrating the effectiveness and potential of the
low-precision training of GBDT. The code will be released to the official
repository of LightGBM.
- Abstract(参考訳): 近年では、幅広い機械学習アプリケーションに対して、GBDT(Gradient Boosting Decision Trees)が大きな成功を収めている。
一般に、GBDTのトレーニングアルゴリズムに関するコンセンサスは勾配であり、統計は高精度浮動小数点に基づいて計算される。
本稿では,従来の文献では無視されてきた,GBDTのトレーニングにおける勾配を表すために,何ビットが必要かという,本質的に重要な問題について検討する。
この謎を解決するために、GBDTのトレーニングアルゴリズムにおいて、高精度勾配を非常に単純かつ効果的な方法で定量化することを提案する。
驚くべきことに、我々の理論的解析と経験的研究の両方で、性能を損なうことなく勾配の必要な精度が2ビットや3ビットなど非常に低いことが示されている。
低精度勾配では、GBDTトレーニングにおけるほとんどの算術演算は、8, 16, 32ビットの整数演算に置き換えられる。
これらの知見は,(1)ヒストグラムにおける勾配統計の計算の高速化,(2)分散トレーニングにおける高精度統計情報の通信コストの圧縮,(3)GBDTトレーニングのための低精度計算をうまく支援するハードウェアアーキテクチャの利用と開発へのインスピレーションなど,GBDTのより効率的なトレーニングの道を開くことができる。
CPU、GPU、分散クラスタをベンチマークし、大規模なデータセット上のSOTA GBDTシステムと比較して、単純な量子化戦略の2$\times$スピードアップを観察し、GBDTの低精度トレーニングの有効性と可能性を実証した。
コードはlightgbmの公式リポジトリにリリースされる予定だ。
関連論文リスト
- Gradient-Free Neural Network Training on the Edge [12.472204825917629]
ニューラルネットワークのトレーニングは計算的に重く、エネルギー集約的である。
この研究は、勾配を必要とせずにニューラルネットワークをトレーニングするための新しいテクニックを提示している。
本研究では,各ニューロンの予測された分類に対する誤った寄与を同定することにより,勾配に基づく最適化手法を使わずにモデルを訓練することが可能であることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:38:39Z) - Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance [51.36243421001282]
Gradient-Mask Tuning (GMT) は、勾配情報に基づいてトレーニング中のパラメータを選択的に更新する手法である。
実験により, GMTは従来の微調整法に勝るだけでなく, LLM性能の上限も高めることを示した。
論文 参考訳(メタデータ) (2024-06-21T17:42:52Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput
Problems [3.04585143845864]
Gradient Boosted Decision Tree (GBDT)は、広く使われている機械学習アルゴリズムである。
本稿では,多出力シナリオにおけるGBDTのトレーニングプロセスの高速化を目的とした新しい手法を提案する。
私たちの数値研究は、SketchBoostがGBDTのトレーニングプロセスを最大40倍高速化することを示している。
論文 参考訳(メタデータ) (2022-11-23T11:06:10Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Empirical Analysis on Top-k Gradient Sparsification for Distributed Deep
Learning in a Supercomputing Environment [0.6091702876917281]
通信トラフィックを大幅に削減するために,勾配スペーシフィケーションが提案されている。
Top-kグラデーションスペーシフィケーション(Top-k SGD)は、トレーニング全体のパフォーマンス向上に限界がある。
我々はTop-k SGDの非効率性を示す実験を行い、低性能の知見を提供する。
論文 参考訳(メタデータ) (2022-09-18T07:42:31Z) - Distribution Adaptive INT8 Quantization for Training CNNs [12.708068468737286]
本稿では,畳み込みニューラルネットワークのための新しいINT8量子化学習フレームワークを提案する。
具体的には, 層幅勾配がチャネル次元に沿って複数の分布を含むという観測に基づいて, 勾配の量子化にグラディエントベクトル化量子化を用いる。
次に、量子化誤差を最小化する際に、勾配の等級を考慮に入れ、マグニチュード対応のクリッピング戦略を導入する。
論文 参考訳(メタデータ) (2021-02-09T11:58:10Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。