論文の概要: Tabular Data: Deep Learning is Not All You Need
- arxiv url: http://arxiv.org/abs/2106.03253v1
- Date: Sun, 6 Jun 2021 21:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 06:41:26.944388
- Title: Tabular Data: Deep Learning is Not All You Need
- Title(参考訳): Tabular Data: ディープラーニングは必要なすべてではない
- Authors: Ravid Shwartz-Ziv and Amitai Armon
- Abstract要約: AutoMLシステムの主要な要素は、タスクの種類ごとに使用されるモデルのタイプを設定することである。
表データの分類や回帰問題では、通常、ツリーアンサンブルモデル(XGBoostなど)の使用が推奨される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key element of AutoML systems is setting the types of models that will be
used for each type of task. For classification and regression problems with
tabular data, the use of tree ensemble models (like XGBoost) is usually
recommended. However, several deep learning models for tabular data have
recently been proposed, claiming to outperform XGBoost for some use-cases. In
this paper, we explore whether these deep models should be a recommended option
for tabular data, by rigorously comparing the new deep models to XGBoost on a
variety of datasets. In addition to systematically comparing their accuracy, we
consider the tuning and computation they require. Our study shows that XGBoost
outperforms these deep models across the datasets, including datasets used in
the papers that proposed the deep models. We also demonstrate that XGBoost
requires much less tuning. On the positive side, we show that an ensemble of
the deep models and XGBoost performs better on these datasets than XGBoost
alone.
- Abstract(参考訳): AutoMLシステムの主要な要素は、タスクの種類ごとに使用されるモデルのタイプを設定することである。
表データの分類や回帰問題では、通常、ツリーアンサンブルモデル(XGBoostなど)の使用が推奨される。
しかし、最近、いくつかのユースケースでXGBoostより優れていると主張する表型データのためのディープラーニングモデルが提案されている。
本稿では,新しい深層モデルと各種データセットのxgboostを厳密に比較することにより,これらの深層モデルが表データに推奨される選択肢であるかどうかを検討する。
その精度を体系的に比較するだけでなく、チューニングや計算も検討する。
我々の研究によると、XGBoostは、深層モデルを提案する論文で使用されるデータセットを含む、これらの深層モデルよりも優れている。
また、XGBoostはずっと少ないチューニングを必要とします。
ポジティブな側面として、深層モデルとxgboostのアンサンブルは、xgboost単独よりもこれらのデータセットで優れたパフォーマンスを示す。
関連論文リスト
- Generative Active Learning for Long-tailed Instance Segmentation [55.66158205855948]
キャッシュ勾配に基づいて生成したデータの寄与を推定する新しいアルゴリズムであるBSGALを提案する。
実験により,BSGALはベースラインアプローチより優れ,長い尾のセグメンテーションの性能が効果的に向上することが示された。
論文 参考訳(メタデータ) (2024-06-04T15:57:43Z) - When do Generative Query and Document Expansions Fail? A Comprehensive
Study Across Methods, Retrievers, and Datasets [69.28733312110566]
LMに基づく拡張の最初の包括的解析を行う。
抽出器の性能と拡張による利得との間には強い負の相関関係があることが判明した。
より弱いモデルに拡張を使用するか、ターゲットデータセットがフォーマットのトレーニングコーパスと大きく異なる場合。
論文 参考訳(メタデータ) (2023-09-15T17:05:43Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - IGB: Addressing The Gaps In Labeling, Features, Heterogeneity, and Size
of Public Graph Datasets for Deep Learning Research [14.191338008898963]
グラフニューラルネットワーク(GNN)は、さまざまな現実的、挑戦的なアプリケーションに対して高い可能性を示している。
GNN研究の大きな障害の1つは、大規模なフレキシブルデータセットの欠如である。
イリノイグラフベンチマーク(IGB)は、開発者がGNNモデルをトレーニング、精査、評価するために使用できる研究データセットツールである。
論文 参考訳(メタデータ) (2023-02-27T05:21:35Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - KGBoost: A Classification-based Knowledge Base Completion Method with
Negative Sampling [29.14178162494542]
KGBoostは、リンク予測の欠如のために強力な分類器を訓練する新しい方法である。
我々は、複数のベンチマークデータセットで実験を行い、KGBoostがほとんどのデータセットで最先端のメソッドより優れていることを示す。
エンドツーエンドの最適化によって訓練されたモデルと比較して、KGBoostは、より小さなモデルサイズを実現するために、低次元設定下でうまく機能する。
論文 参考訳(メタデータ) (2021-12-17T06:19:37Z) - A Simple and Fast Baseline for Tuning Large XGBoost Models [8.203493207581937]
均一なサブサンプリングによって,大規模なXGBoostモデルのチューニングを高速化する,シンプルかつ高速なベースラインが得られることを示す。
このベースラインが15~70mathrmGBの大規模データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-11-12T20:17:50Z) - Node Feature Extraction by Self-Supervised Multi-scale Neighborhood
Prediction [123.20238648121445]
我々は、新しい自己教師型学習フレームワーク、グラフ情報支援ノード機能exTraction (GIANT)を提案する。
GIANT は eXtreme Multi-label Classification (XMC) 形式を利用しており、これはグラフ情報に基づいた言語モデルの微調整に不可欠である。
我々は,Open Graph Benchmarkデータセット上での標準GNNパイプラインよりもGIANTの方が優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-29T19:55:12Z) - An Efficient Learning Framework For Federated XGBoost Using Secret
Sharing And Distributed Optimization [47.70500612425959]
XGBoostは、より優れた学習精度と効率のため、業界で最も広く使われている機械学習モデルの1つである。
ビッグデータ問題におけるデータ分離問題に対処するためには、セキュアで効率的なフェデレーションXGBoost(FedXGB)モデルをデプロイすることが重要です。
本稿では,xgboostの分割基準計算プロセスをシークレット共有設定で再構成するセキュリティ保証とともに,マルチパーティフェデレーションxgb学習フレームワークを提案する。
注目すべきは、モデルセキュリティの徹底的な分析も提供され、複数の数値結果が提案されたFedXGBの優位性を示しています。
論文 参考訳(メタデータ) (2021-05-12T15:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。