論文の概要: A Simple and Fast Baseline for Tuning Large XGBoost Models
- arxiv url: http://arxiv.org/abs/2111.06924v1
- Date: Fri, 12 Nov 2021 20:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 16:07:12.593226
- Title: A Simple and Fast Baseline for Tuning Large XGBoost Models
- Title(参考訳): 大きなxgboostモデルのチューニングのためのシンプルで高速なベースライン
- Authors: Sanyam Kapoor, Valerio Perrone
- Abstract要約: 均一なサブサンプリングによって,大規模なXGBoostモデルのチューニングを高速化する,シンプルかつ高速なベースラインが得られることを示す。
このベースラインが15~70mathrmGBの大規模データセットに対して有効であることを示す。
- 参考スコア(独自算出の注目度): 8.203493207581937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: XGBoost, a scalable tree boosting algorithm, has proven effective for many
prediction tasks of practical interest, especially using tabular datasets.
Hyperparameter tuning can further improve the predictive performance, but
unlike neural networks, full-batch training of many models on large datasets
can be time consuming. Owing to the discovery that (i) there is a strong linear
relation between dataset size & training time, (ii) XGBoost models satisfy the
ranking hypothesis, and (iii) lower-fidelity models can discover promising
hyperparameter configurations, we show that uniform subsampling makes for a
simple yet fast baseline to speed up the tuning of large XGBoost models using
multi-fidelity hyperparameter optimization with data subsets as the fidelity
dimension. We demonstrate the effectiveness of this baseline on large-scale
tabular datasets ranging from $15-70\mathrm{GB}$ in size.
- Abstract(参考訳): スケーラブルなツリーブースティングアルゴリズムであるxgboostは、多くの実用的な予測タスク、特に表型データセットにおいて有効であることが証明されている。
ハイパーパラメータチューニングは予測性能をさらに向上させるが、ニューラルネットワークとは異なり、大規模なデータセット上の多くのモデルのフルバッチトレーニングには時間がかかる。
その発見により
(i)データセットのサイズとトレーニング時間の間には強い線形関係がある。
(ii)XGBoostモデルはランキング仮説を満たし、
(iii)低忠実度モデルは、有望なハイパーパラメータ構成を発見でき、一様サブサンプリングは、データサブセットを忠実度次元とするマルチ忠実度ハイパーパラメータ最適化を用いて、大きなxgboostモデルのチューニングを高速化するために、単純で高速なベースラインを生成する。
このベースラインを15~70\mathrm{gb}$の大きさの大規模表型データセットで有効性を示す。
関連論文リスト
- Scaling Up Diffusion and Flow-based XGBoost Models [5.944645679491607]
本稿では,XGBoostを拡散・流れマッチングモデルにおける関数近似器として利用するための最近の提案について検討する。
より優れた実装では、以前よりも370倍大きなデータセットにスケールできる。
我々は,Fast Calorimeter Simulation Challengeの一環として,大規模科学的データセットについて報告する。
論文 参考訳(メタデータ) (2024-08-28T18:00:00Z) - Under the Hood of Tabular Data Generation Models: the Strong Impact of Hyperparameter Tuning [2.5168710814072894]
本研究では,モデル統合評価の実践的ニーズに対処する。
高速な最適化を実現するために,各モデルに対する探索空間の削減を提案する。
ほとんどのモデルでは、データセット固有の大規模チューニングによって、オリジナルの構成よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-06-18T07:27:38Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How [62.467716468917224]
本稿では,最適事前学習モデルとハイパーパラメータを共同で探索し,微調整する手法を提案する。
本手法は,一連のデータセット上で,事前学習したモデルの性能に関する知識を伝達する。
得られたアプローチによって、新しいデータセットの正確な事前学習モデルを迅速に選択できることを実証的に実証する。
論文 参考訳(メタデータ) (2023-06-06T16:15:26Z) - Deep incremental learning models for financial temporal tabular datasets
with distribution shifts [0.9790236766474201]
このフレームワークは、単純な基本的なビルディングブロック(決定木)を使用して、必要な複雑さの自己相似モデルを構築する。
我々は,NumeraiデータセットでトレーニングしたXGBoostモデルを用いて提案手法を実証し,異なるモデルスナップショット上での2層のXGBoostモデルの深部アンサンブルが高品質な予測を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T14:10:37Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Collegial Ensembles [11.64359837358763]
我々は,群畳み込みと対角線ブロックを用いた実用的アーキテクチャにおいて,コレギアルアンサンブルを効率的に実装可能であることを示す。
また、一つのモデルをトレーニングすることなく、最適なグループ畳み込みモジュールを解析的に導き出すために、我々のフレームワークをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2020-06-13T16:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。