論文の概要: LiteMORT: A memory efficient gradient boosting tree system on adaptive
compact distributions
- arxiv url: http://arxiv.org/abs/2001.09419v1
- Date: Sun, 26 Jan 2020 08:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:17:03.052111
- Title: LiteMORT: A memory efficient gradient boosting tree system on adaptive
compact distributions
- Title(参考訳): litemort:適応的コンパクト分布に基づくメモリ効率のよい勾配ブースティングツリーシステム
- Authors: Yingshi Chen
- Abstract要約: グラディエント強化決定木(GBDT)は、多くの商用および学術データアプリケーションにおいて主要なアルゴリズムである。
本稿では, このアルゴリズム, 特にヒストグラム法について深く分析する。
我々は3つの新しい修正を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient boosted decision trees (GBDT) is the leading algorithm for many
commercial and academic data applications. We give a deep analysis of this
algorithm, especially the histogram technique, which is a basis for the
regulized distribution with compact support. We present three new
modifications. 1) Share memory technique to reduce memory usage. In many cases,
it only need the data source itself and no extra memory. 2) Implicit merging
for "merge overflow problem"."merge overflow" means that merge some small
datasets to huge datasets, which are too huge to be solved. By implicit
merging, we just need the original small datasets to train the GBDT model. 3)
Adaptive resize algorithm of histogram bins to improve accuracy. Experiments on
two large Kaggle competitions verified our methods. They use much less memory
than LightGBM and have higher accuracy. We have implemented these algorithms in
an open-source package LiteMORT. The source codes are available at
https://github.com/closest-git/LiteMORT
- Abstract(参考訳): グラディエント強化決定木(GBDT)は多くの商用および学術データアプリケーションの主要なアルゴリズムである。
本稿では,このアルゴリズム,特にヒストグラム手法の深い解析を行い,コンパクトサポートによる再帰分布の基盤とした。
我々は3つの新しい修正を提示する。
1)メモリ使用量を減らすための共有メモリ技術。
多くの場合、データソース自体だけで、追加のメモリは必要ありません。
2)「マージオーバーフロー問題」の合併を示唆する。
マージオーバーフロー(merge overflow)とは、いくつかの小さなデータセットを巨大なデータセットにマージすることを意味する。
暗黙のマージによって、GBDTモデルをトレーニングするためには、オリジナルの小さなデータセットが必要です。
3) ヒストグラムビンの適応リサイズアルゴリズムにより精度を向上する。
2つの大きなKaggleコンペティションの実験で、我々の手法が検証された。
メモリ使用量はlightgbmよりはるかに少なく、精度も高い。
我々はこれらのアルゴリズムをオープンソースパッケージ LiteMORT で実装した。
ソースコードはhttps://github.com/closest-git/LiteMORTで入手できる。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - BEAR: Sketching BFGS Algorithm for Ultra-High Dimensional Feature
Selection in Sublinear Memory [13.596664481933875]
現在の大規模スケッチアルゴリズムは、スケッチされた領域における不可逆的な衝突とノイズの蓄積により、メモリ精度のトレードオフが低いことを示す。
我々はBEARを開発し、著名なブロイデン=フレッチャー=ゴールドファーブ=シャノン(BFGS)アルゴリズムに2階勾配を格納することで余分な衝突を避ける。
実世界のデータセットの実験により、BEARは1次スケッチアルゴリズムと同一の分類精度を達成するために最大で3桁のメモリスペースを必要とすることが示された。
論文 参考訳(メタデータ) (2020-10-26T18:31:27Z) - Very Fast Streaming Submodular Function Maximization [6.734843312980923]
サブモジュール関数アルゴリズムは、より高い計算とメモリ要求を犠牲にして最悪のケース近似を提供する。
我々は,最悪のケースを無視するが,高い確率で優れた解を提供する3-Sievesと呼ばれる新しい部分モジュラ関数アルゴリズムを提案する。
我々のアルゴリズムは現在の最先端のアルゴリズムよりも優れており、同時にリソースが少ないことも示している。
論文 参考訳(メタデータ) (2020-10-20T06:36:14Z) - OctSqueeze: Octree-Structured Entropy Model for LiDAR Compression [77.8842824702423]
本稿では,LiDAR点雲のメモリフットプリントを削減するための新しいディープ圧縮アルゴリズムを提案する。
本手法は,メモリフットプリントを低減するために,点間の間隔と構造的冗長性を利用する。
我々のアルゴリズムは、自動運転車などのアプリケーションにおいて、LiDARポイントのオンボードおよびオフボードストレージを減らすために使用できる。
論文 参考訳(メタデータ) (2020-05-14T17:48:49Z) - Efficient Tensor Kernel methods for sparse regression [39.95662930240854]
そこで本研究では,下層の回帰問題の解における空間性を促進するために,適切なテンソルカーネルを導入する。
テンソルを格納するにはかなりの量のメモリが必要で、最終的には適用性を制限する。
まず、データを格納するための新しいより効率的なレイアウトを導入することにより、メモリ要求を直接削減する。
第二に、Nystrom型サブサンプリングアプローチを用いて、少ないデータポイントでトレーニングフェーズを実現できるので、計算コストを削減できる。
論文 参考訳(メタデータ) (2020-03-23T18:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。