論文の概要: An information criterion for automatic gradient tree boosting
- arxiv url: http://arxiv.org/abs/2008.05926v1
- Date: Thu, 13 Aug 2020 14:24:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:58:11.150570
- Title: An information criterion for automatic gradient tree boosting
- Title(参考訳): 傾斜木の自動ブースティングのための情報基準
- Authors: Berent {\AA}nund Str{\o}mnes Lunde, Tore Selland Kleppe, Hans Julius
Skaug
- Abstract要約: 分類木と回帰木の複雑さと勾配木増木における木数を知るための情報理論的手法を提案する。
コックス-インガーソル-ロス過程の最大値として, グリーディ葉分割術の楽観性(試験損失マイナスのトレーニング損失)が示された。
xgboostとは対照的に、数値実験のスピードアップは10から1400の範囲で、テストロスの点で測定された同様の予測力である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An information theoretic approach to learning the complexity of
classification and regression trees and the number of trees in gradient tree
boosting is proposed. The optimism (test loss minus training loss) of the
greedy leaf splitting procedure is shown to be the maximum of a
Cox-Ingersoll-Ross process, from which a generalization-error based information
criterion is formed. The proposed procedure allows fast local model selection
without cross validation based hyper parameter tuning, and hence efficient and
automatic comparison among the large number of models performed during each
boosting iteration. Relative to xgboost, speedups on numerical experiments
ranges from around 10 to about 1400, at similar predictive-power measured in
terms of test-loss.
- Abstract(参考訳): 分類木と回帰木の複雑さと勾配木ブースティングの樹数を学習するための情報理論的アプローチを提案する。
グリードリーフ分割手順の最適化(テスト損失マイナストレーニング損失)は、一般化エラーに基づく情報基準が形成されるコックス・インガーソル・ロス過程の最大値であることが示される。
提案手法により,クロスバリデーションに基づくハイパーパラメータチューニングを使わずに高速な局所モデル選択が可能となる。
xgboostと比較すると、数値実験のスピードアップは10から1400程度で、同様の予測能力でテスト損失が測定される。
関連論文リスト
- Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Soft regression trees: a model variant and a decomposition training algorithm [0.24578723416255752]
そこで本研究では,各入力ベクトルに対して,単一の葉ノードに関連付けられた線形回帰として定義する,ソフト多変量回帰木(SRT)の新たな変種を提案する。
SRTは条件付き計算特性、すなわち各予測は少数のノードに依存する。
15のよく知られたデータセットの実験により、従来のソフトレグレッションツリーと比較して、我々のSRTと分解アルゴリズムは高い精度とロバスト性が得られることが示された。
論文 参考訳(メタデータ) (2025-01-10T13:06:36Z) - Can a Single Tree Outperform an Entire Forest? [5.448070998907116]
一般的な考え方は、単一の決定木は、テスト精度において古典的なランダムな森林を過小評価する。
本研究では,斜め回帰木の試験精度を大幅に向上させることで,このような考え方に挑戦する。
本手法は,木習熟を非制約最適化タスクとして再編成する。
論文 参考訳(メタデータ) (2024-11-26T00:18:18Z) - Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。
DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。
非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文 参考訳(メタデータ) (2024-08-21T05:09:53Z) - A Robust Hypothesis Test for Tree Ensemble Pruning [2.4923006485141284]
そこで我々は,勾配増進木アンサンブルの分割品質に関する理論的に正当化された新しい仮説を考案し,提示する。
本手法は, 一般的なペナルティ条件ではなく, サンプル損失の低減につながることを示す。
また,この手法にいくつかの革新的な拡張を加えて,様々な新しい木刈りアルゴリズムの扉を開く。
論文 参考訳(メタデータ) (2023-01-24T16:31:49Z) - Optimal randomized classification trees [0.0]
分類と回帰木(英: Classification and Regression Trees、CART)は、現代の統計学と機械学習における既成の技術である。
CARTはgreedyプロシージャによって構築され、分割予測変数と関連するしきい値を逐次決定する。
この強欲なアプローチは、木を非常に高速に木に分類するが、その性質上、それらの分類精度は他の最先端の手順と競合しないかもしれない。
論文 参考訳(メタデータ) (2021-10-19T11:41:12Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z) - Variable Skipping for Autoregressive Range Density Estimation [84.60428050170687]
深部自己回帰モデルを用いた距離密度推定を高速化する手法である可変スキップについて述べる。
可変スキップは、10-100$timesの効率向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-10T19:01:40Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。