Fugu-MT 論文翻訳(概要): A Simple and Fast Baseline for Tuning Large XGBoost Models

論文の概要: A Simple and Fast Baseline for Tuning Large XGBoost Models

arxiv url: http://arxiv.org/abs/2111.06924v1
Date: Fri, 12 Nov 2021 20:17:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-16 16:07:12.593226
Title: A Simple and Fast Baseline for Tuning Large XGBoost Models
Title（参考訳）: 大きなxgboostモデルのチューニングのためのシンプルで高速なベースライン
Authors: Sanyam Kapoor, Valerio Perrone
Abstract要約: 均一なサブサンプリングによって,大規模なXGBoostモデルのチューニングを高速化する,シンプルかつ高速なベースラインが得られることを示す。このベースラインが15～70mathrmGBの大規模データセットに対して有効であることを示す。
参考スコア（独自算出の注目度）: 8.203493207581937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: XGBoost, a scalable tree boosting algorithm, has proven effective for many prediction tasks of practical interest, especially using tabular datasets. Hyperparameter tuning can further improve the predictive performance, but unlike neural networks, full-batch training of many models on large datasets can be time consuming. Owing to the discovery that (i) there is a strong linear relation between dataset size & training time, (ii) XGBoost models satisfy the ranking hypothesis, and (iii) lower-fidelity models can discover promising hyperparameter configurations, we show that uniform subsampling makes for a simple yet fast baseline to speed up the tuning of large XGBoost models using multi-fidelity hyperparameter optimization with data subsets as the fidelity dimension. We demonstrate the effectiveness of this baseline on large-scale tabular datasets ranging from $15-70\mathrm{GB}$ in size.
Abstract（参考訳）: スケーラブルなツリーブースティングアルゴリズムであるxgboostは、多くの実用的な予測タスク、特に表型データセットにおいて有効であることが証明されている。ハイパーパラメータチューニングは予測性能をさらに向上させるが、ニューラルネットワークとは異なり、大規模なデータセット上の多くのモデルのフルバッチトレーニングには時間がかかる。その発見により (i)データセットのサイズとトレーニング時間の間には強い線形関係がある。 (ii)XGBoostモデルはランキング仮説を満たし、 (iii)低忠実度モデルは、有望なハイパーパラメータ構成を発見でき、一様サブサンプリングは、データサブセットを忠実度次元とするマルチ忠実度ハイパーパラメータ最適化を用いて、大きなxgboostモデルのチューニングを高速化するために、単純で高速なベースラインを生成する。このベースラインを15～70\mathrm{gb}$の大きさの大規模表型データセットで有効性を示す。

関連論文リスト

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文参考訳（メタデータ） (2025-03-03T07:31:40Z)
Scaling Up Diffusion and Flow-based XGBoost Models [5.944645679491607]
本稿では,XGBoostを拡散・流れマッチングモデルにおける関数近似器として利用するための最近の提案について検討する。より優れた実装では、以前よりも370倍大きなデータセットにスケールできる。我々は,Fast Calorimeter Simulation Challengeの一環として,大規模科学的データセットについて報告する。
論文参考訳（メタデータ） (2024-08-28T18:00:00Z)
Under the Hood of Tabular Data Generation Models: the Strong Impact of Hyperparameter Tuning [2.5168710814072894]
本研究では,モデル統合評価の実践的ニーズに対処する。高速な最適化を実現するために,各モデルに対する探索空間の削減を提案する。ほとんどのモデルでは、データセット固有の大規模チューニングによって、オリジナルの構成よりもパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2024-06-18T07:27:38Z)
Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-08T22:33:14Z)
Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How [62.467716468917224]
本稿では,最適事前学習モデルとハイパーパラメータを共同で探索し,微調整する手法を提案する。本手法は,一連のデータセット上で,事前学習したモデルの性能に関する知識を伝達する。得られたアプローチによって、新しいデータセットの正確な事前学習モデルを迅速に選択できることを実証的に実証する。
論文参考訳（メタデータ） (2023-06-06T16:15:26Z)
Deep incremental learning models for financial temporal tabular datasets with distribution shifts [0.9790236766474201]
このフレームワークは、単純な基本的なビルディングブロック(決定木)を使用して、必要な複雑さの自己相似モデルを構築する。我々は,NumeraiデータセットでトレーニングしたXGBoostモデルを用いて提案手法を実証し,異なるモデルスナップショット上での2層のXGBoostモデルの深部アンサンブルが高品質な予測を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T14:10:37Z)
Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文参考訳（メタデータ） (2022-11-01T14:38:18Z)
Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文参考訳（メタデータ） (2022-07-07T04:42:54Z)
AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文参考訳（メタデータ） (2022-03-15T19:25:01Z)
Fast, Accurate, and Simple Models for Tabular Data via Augmented Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文参考訳（メタデータ） (2020-06-25T09:57:47Z)
Collegial Ensembles [11.64359837358763]
我々は,群畳み込みと対角線ブロックを用いた実用的アーキテクチャにおいて,コレギアルアンサンブルを効率的に実装可能であることを示す。また、一つのモデルをトレーニングすることなく、最適なグループ畳み込みモジュールを解析的に導き出すために、我々のフレームワークをどのように利用できるかを示す。
論文参考訳（メタデータ） (2020-06-13T16:40:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。