論文の概要: Why do tree-based models still outperform deep learning on tabular data?
- arxiv url: http://arxiv.org/abs/2207.08815v1
- Date: Mon, 18 Jul 2022 08:36:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 12:55:54.002707
- Title: Why do tree-based models still outperform deep learning on tabular data?
- Title(参考訳): なぜ木ベースのモデルは表データのディープラーニングよりも優れているのか?
- Authors: L\'eo Grinsztajn (SODA), Edouard Oyallon (ISIR, CNRS), Ga\"el
Varoquaux (SODA)
- Abstract要約: 木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning has enabled tremendous progress on text and image
datasets, its superiority on tabular data is not clear. We contribute extensive
benchmarks of standard and novel deep learning methods as well as tree-based
models such as XGBoost and Random Forests, across a large number of datasets
and hyperparameter combinations. We define a standard set of 45 datasets from
varied domains with clear characteristics of tabular data and a benchmarking
methodology accounting for both fitting models and finding good
hyperparameters. Results show that tree-based models remain state-of-the-art on
medium-sized data ($\sim$10K samples) even without accounting for their
superior speed. To understand this gap, we conduct an empirical investigation
into the differing inductive biases of tree-based models and Neural Networks
(NNs). This leads to a series of challenges which should guide researchers
aiming to build tabular-specific NNs: 1. be robust to uninformative features,
2. preserve the orientation of the data, and 3. be able to easily learn
irregular functions. To stimulate research on tabular architectures, we
contribute a standard benchmark and raw data for baselines: every point of a 20
000 compute hours hyperparameter search for each learner.
- Abstract(参考訳): ディープラーニングはテキストと画像データセットの大幅な進歩をもたらしたが、表データでの優位性は明確ではない。
我々は、XGBoostやRandom Forestsのような木に基づくモデルと同様に、標準および新しいディープラーニング手法の広範なベンチマークを、多数のデータセットとハイパーパラメータの組み合わせで提供します。
表データの特徴を明確にした,様々な領域の45のデータセットの標準セットと,適合するモデルと良いハイパーパラメータを求めるためのベンチマーク手法を定義する。
その結果,木をベースとしたモデルは,優れた速度を考慮せずに,中規模データ(\sim$10Kサンプル)の最先端のままであることがわかった。
このギャップを理解するために、我々はツリーベースモデルとニューラルネットワーク(NN)の異なる帰納バイアスについて実証的研究を行う。
これは、表特有のNNの構築を目指す研究者のガイドとなる、一連の課題につながります。
1.非形式的特徴に対して堅牢であること。
2 データの向きを保つこと、及び
3. 不規則な機能を 簡単に学べる。
表型アーキテクチャの研究を刺激するため,各学習者に対して,20000時間の計算時間毎のハイパーパラメータ探索を行う標準ベンチマークと,ベースラインの生データを提示する。
関連論文リスト
- Escaping the Forest: Sparse Interpretable Neural Networks for Tabular Data [0.0]
我々のモデルであるSparse TABular NET や sTAB-Net がツリーベースモデルよりも効果的であることを示す。
SHAPのようなポストホックメソッドよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-23T10:50:07Z) - A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data [9.107782510356989]
そこで本研究では,エンドツーエンドの勾配勾配勾配を用いた軸方向決定木アンサンブルの学習手法を提案する。
Grandeはツリーアンサンブルの密度の高い表現に基づいており、ストレートスルー演算子でバックプロパゲーションを使用することができる。
提案手法は,ほとんどのデータセットにおいて,既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T10:49:14Z) - When Do Neural Nets Outperform Boosted Trees on Tabular Data? [65.30290020731825]
私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
論文 参考訳(メタデータ) (2023-05-04T17:04:41Z) - Graph Neural Network contextual embedding for Deep Learning on Tabular
Data [0.45880283710344055]
ディープラーニング(DL)は、自然言語処理のような人間のスキルに関連する分野において、AIにとって大きなブレークスルーとなっている。
本稿では,グラフニューラルネットワーク(GNN)を用いた新しいDLモデル,特にインタラクションネットワーク(IN)を提案する。
この結果は、最近発表された5つの公開データセットに基づいたDLベンチマークによる調査よりも優れており、増木ソリューションと比較しても競争力のある結果が得られている。
論文 参考訳(メタデータ) (2023-03-11T17:13:24Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - Hopular: Modern Hopfield Networks for Tabular Data [5.470026407471584]
中小データセットのための新しいディープラーニングアーキテクチャである"Hopular"を提案する。
Hopularは格納されたデータを使用して、フィーチャー機能、フィーチャーターゲット、サンプルサンプル依存関係を識別する。
1,000サンプル未満の小さなデータセットの実験では、HopularはGradient Boosting、Random Forests、SVM、特にいくつかのDeep Learningメソッドを超越している。
論文 参考訳(メタデータ) (2022-06-01T17:57:44Z) - Deep Neural Networks and Tabular Data: A Survey [6.940394595795544]
この研究は、表形式のデータに対する最先端のディープラーニング手法の概要を提供する。
データ変換、特殊なアーキテクチャ、正規化モデルという3つのグループに分類することから始めます。
次に、各グループの主なアプローチについて概観する。
論文 参考訳(メタデータ) (2021-10-05T09:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。