論文の概要: When Do Neural Nets Outperform Boosted Trees on Tabular Data?
- arxiv url: http://arxiv.org/abs/2305.02997v3
- Date: Mon, 30 Oct 2023 21:24:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:54:24.411389
- Title: When Do Neural Nets Outperform Boosted Trees on Tabular Data?
- Title(参考訳): ニューラルネットワークはタブラルデータ上で高木を向上するのか?
- Authors: Duncan McElfresh, Sujay Khandagale, Jonathan Valverde, Vishak Prasad
C, Benjamin Feuer, Chinmay Hegde, Ganesh Ramakrishnan, Micah Goldblum, Colin
White
- Abstract要約: 私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
- 参考スコア(独自算出の注目度): 67.47573557280467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is one of the most commonly used types of data in machine
learning. Despite recent advances in neural nets (NNs) for tabular data, there
is still an active discussion on whether or not NNs generally outperform
gradient-boosted decision trees (GBDTs) on tabular data, with several recent
works arguing either that GBDTs consistently outperform NNs on tabular data, or
vice versa. In this work, we take a step back and question the importance of
this debate. To this end, we conduct the largest tabular data analysis to date,
comparing 19 algorithms across 176 datasets, and we find that the 'NN vs. GBDT'
debate is overemphasized: for a surprisingly high number of datasets, either
the performance difference between GBDTs and NNs is negligible, or light
hyperparameter tuning on a GBDT is more important than choosing between NNs and
GBDTs. A remarkable exception is the recently-proposed prior-data fitted
network, TabPFN: although it is effectively limited to training sets of size
3000, we find that it outperforms all other algorithms on average, even when
randomly sampling 3000 training datapoints. Next, we analyze dozens of
metafeatures to determine what properties of a dataset make NNs or GBDTs
better-suited to perform well. For example, we find that GBDTs are much better
than NNs at handling skewed or heavy-tailed feature distributions and other
forms of dataset irregularities. Our insights act as a guide for practitioners
to determine which techniques may work best on their dataset. Finally, with the
goal of accelerating tabular data research, we release the TabZilla Benchmark
Suite: a collection of the 36 'hardest' of the datasets we study. Our benchmark
suite, codebase, and all raw results are available at
https://github.com/naszilla/tabzilla.
- Abstract(参考訳): タブラルデータ(英: Tabular data)は、機械学習において最も一般的に使用されるデータの1つである。
表データに対するニューラルネット(NN)の最近の進歩にもかかわらず、NNが表データ上で一般的に勾配付き決定木(GBDT)を上回っているかどうかについては、活発な議論が続いている。
この作業では、一歩後退して、この議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンス差は無視可能であるか、GBDTの軽量ハイパーパラメータチューニングの方がNNとGBDTの選択よりも重要である。
最近提案された事前データ対応ネットワークであるTabPFNは、3000のトレーニングセットに事実上制限されているが、3000のトレーニングデータポイントをランダムにサンプリングしても、他のアルゴリズムを平均で上回っている。
次に、数十のメタ機能を分析して、nnやgbdtがうまく機能するようにデータセットの特性を決定する。
例えば、GBDTは、スキューやヘビーテールの機能分布やその他のデータセットの不規則性を扱うのに、NNよりもはるかに優れている。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
最後に、表形式のデータ研究を加速することを目的として、TabZilla Benchmark Suiteをリリースした。
私たちのベンチマークスイート、コードベース、およびすべての生の結果は、https://github.com/naszilla/tabzillaで閲覧できます。
関連論文リスト
- Team up GBDTs and DNNs: Advancing Efficient and Effective Tabular Prediction with Tree-hybrid MLPs [20.67800392863432]
タブラルデータセットは、様々なアプリケーションにおいて重要な役割を果たす。
強化決定木(GBDT)とディープニューラルネットワーク(DNN)の2つの顕著なモデルタイプは、異なる予測タスクでパフォーマンス上のアドバンテージを示している。
本稿では,GBDTとDNNの両方の利点を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-13T07:13:32Z) - TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks [90.00817095558094]
事前データ対応ネットワーク(PFN)は、事前学習とコンテキスト内学習を利用して、1つのフォワードパスで新しいタスクの強力なパフォーマンスを実現する。
我々は、大規模なデータセットをより小さな学習コンテキストに圧縮するPFNのパラメータ効率の良い微調整戦略であるTuneTablesを紹介した。
我々は、TuneTablesを解釈可能性ツールとして使用することができ、公平性目標を最適化することでバイアスを軽減することができることを示した。
論文 参考訳(メタデータ) (2024-02-17T00:02:23Z) - REST: Enhancing Group Robustness in DNNs through Reweighted Sparse
Training [49.581884130880944]
ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。
しかし、彼らは推論中に一部の少数派でうまく行動するのに苦労することが多い。
論文 参考訳(メタデータ) (2023-12-05T16:27:54Z) - TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023 [33.70333110327871]
TabR -- 基本的には、中央にカスタムk-Nearest-Neighborsのようなコンポーネントを備えたフィードフォワードネットワークを提供します。
数百万オブジェクトまでのデータセットを持つ公開ベンチマークセットでは、TabRが最高の平均パフォーマンスを示している。
はるかに高いパフォーマンスに加えて、TabRはシンプルで、はるかに効率的です。
論文 参考訳(メタデータ) (2023-07-26T17:58:07Z) - HyperTab: Hypernetwork Approach for Deep Learning on Small Tabular
Datasets [3.9870413777302027]
データセット上の小さなサンプル問題を解決するためのハイパーネットワークベースのアプローチであるHyperTabを紹介する。
ランダムフォレストとニューラルネットワークの利点を組み合わせることで、HyperTabはニューラルネットワークのアンサンブルを生成する。
私たちは、HyperTabが小さなデータで他のメソッドを一貫して上回り、より大きなデータセットでそれと同等のスコアを示します。
論文 参考訳(メタデータ) (2023-04-07T08:48:07Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。