Fugu-MT 論文翻訳(概要): Tabular Data: Deep Learning is Not All You Need

論文の概要: Tabular Data: Deep Learning is Not All You Need

arxiv url: http://arxiv.org/abs/2106.03253v1
Date: Sun, 6 Jun 2021 21:22:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-13 06:41:26.944388
Title: Tabular Data: Deep Learning is Not All You Need
Title（参考訳）: Tabular Data: ディープラーニングは必要なすべてではない
Authors: Ravid Shwartz-Ziv and Amitai Armon
Abstract要約: AutoMLシステムの主要な要素は、タスクの種類ごとに使用されるモデルのタイプを設定することである。表データの分類や回帰問題では、通常、ツリーアンサンブルモデル(XGBoostなど)の使用が推奨される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A key element of AutoML systems is setting the types of models that will be used for each type of task. For classification and regression problems with tabular data, the use of tree ensemble models (like XGBoost) is usually recommended. However, several deep learning models for tabular data have recently been proposed, claiming to outperform XGBoost for some use-cases. In this paper, we explore whether these deep models should be a recommended option for tabular data, by rigorously comparing the new deep models to XGBoost on a variety of datasets. In addition to systematically comparing their accuracy, we consider the tuning and computation they require. Our study shows that XGBoost outperforms these deep models across the datasets, including datasets used in the papers that proposed the deep models. We also demonstrate that XGBoost requires much less tuning. On the positive side, we show that an ensemble of the deep models and XGBoost performs better on these datasets than XGBoost alone.
Abstract（参考訳）: AutoMLシステムの主要な要素は、タスクの種類ごとに使用されるモデルのタイプを設定することである。表データの分類や回帰問題では、通常、ツリーアンサンブルモデル(XGBoostなど)の使用が推奨される。しかし、最近、いくつかのユースケースでXGBoostより優れていると主張する表型データのためのディープラーニングモデルが提案されている。本稿では,新しい深層モデルと各種データセットのxgboostを厳密に比較することにより,これらの深層モデルが表データに推奨される選択肢であるかどうかを検討する。その精度を体系的に比較するだけでなく、チューニングや計算も検討する。我々の研究によると、XGBoostは、深層モデルを提案する論文で使用されるデータセットを含む、これらの深層モデルよりも優れている。また、XGBoostはずっと少ないチューニングを必要とします。ポジティブな側面として、深層モデルとxgboostのアンサンブルは、xgboost単独よりもこれらのデータセットで優れたパフォーマンスを示す。

関連論文リスト

Scaling Up Diffusion and Flow-based XGBoost Models [5.944645679491607]
本稿では,XGBoostを拡散・流れマッチングモデルにおける関数近似器として利用するための最近の提案について検討する。より優れた実装では、以前よりも370倍大きなデータセットにスケールできる。我々は,Fast Calorimeter Simulation Challengeの一環として,大規模科学的データセットについて報告する。
論文参考訳（メタデータ） (2024-08-28T18:00:00Z)
Generative Active Learning for Long-tailed Instance Segmentation [55.66158205855948]
キャッシュ勾配に基づいて生成したデータの寄与を推定する新しいアルゴリズムであるBSGALを提案する。実験により,BSGALはベースラインアプローチより優れ,長い尾のセグメンテーションの性能が効果的に向上することが示された。
論文参考訳（メタデータ） (2024-06-04T15:57:43Z)
Enhancing Dense Retrievers' Robustness with Group-level Reweighting [38.52087558211745]
WebDROは、Webグラフデータをクラスタリングし、グループ重み付けを最適化する効率的なアプローチである。群分散ロバスト最適化を用いて、アンカー文書対の異なるクラスタ間で重みを補正する。 MARCO と BEIR を用いた実験により,教師なしトレーニングおよび微調整設定における検索性能を効果的に向上できることが実証された。
論文参考訳（メタデータ） (2023-10-25T12:50:34Z)
When do Generative Query and Document Expansions Fail? A Comprehensive Study Across Methods, Retrievers, and Datasets [69.28733312110566]
LMに基づく拡張の最初の包括的解析を行う。抽出器の性能と拡張による利得との間には強い負の相関関係があることが判明した。より弱いモデルに拡張を使用するか、ターゲットデータセットがフォーマットのトレーニングコーパスと大きく異なる場合。
論文参考訳（メタデータ） (2023-09-15T17:05:43Z)
Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。これらのグラフモデルと従来の協調フィルタリングモデルを比較する。ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文参考訳（メタデータ） (2023-08-01T09:31:44Z)
Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文参考訳（メタデータ） (2022-07-18T08:36:08Z)
A Robust Stacking Framework for Training Deep Graph Models with Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。 IID(non-graph)データをGNNに簡単に組み込むことはできない。本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-16T22:46:33Z)
KGBoost: A Classification-based Knowledge Base Completion Method with Negative Sampling [29.14178162494542]
KGBoostは、リンク予測の欠如のために強力な分類器を訓練する新しい方法である。我々は、複数のベンチマークデータセットで実験を行い、KGBoostがほとんどのデータセットで最先端のメソッドより優れていることを示す。エンドツーエンドの最適化によって訓練されたモデルと比較して、KGBoostは、より小さなモデルサイズを実現するために、低次元設定下でうまく機能する。
論文参考訳（メタデータ） (2021-12-17T06:19:37Z)
A Simple and Fast Baseline for Tuning Large XGBoost Models [8.203493207581937]
均一なサブサンプリングによって,大規模なXGBoostモデルのチューニングを高速化する,シンプルかつ高速なベースラインが得られることを示す。このベースラインが15～70mathrmGBの大規模データセットに対して有効であることを示す。
論文参考訳（メタデータ） (2021-11-12T20:17:50Z)
Node Feature Extraction by Self-Supervised Multi-scale Neighborhood Prediction [123.20238648121445]
我々は、新しい自己教師型学習フレームワーク、グラフ情報支援ノード機能exTraction (GIANT)を提案する。 GIANT は eXtreme Multi-label Classification (XMC) 形式を利用しており、これはグラフ情報に基づいた言語モデルの微調整に不可欠である。我々は,Open Graph Benchmarkデータセット上での標準GNNパイプラインよりもGIANTの方が優れた性能を示す。
論文参考訳（メタデータ） (2021-10-29T19:55:12Z)
An Efficient Learning Framework For Federated XGBoost Using Secret Sharing And Distributed Optimization [47.70500612425959]
XGBoostは、より優れた学習精度と効率のため、業界で最も広く使われている機械学習モデルの1つである。ビッグデータ問題におけるデータ分離問題に対処するためには、セキュアで効率的なフェデレーションXGBoost(FedXGB)モデルをデプロイすることが重要です。本稿では,xgboostの分割基準計算プロセスをシークレット共有設定で再構成するセキュリティ保証とともに,マルチパーティフェデレーションxgb学習フレームワークを提案する。注目すべきは、モデルセキュリティの徹底的な分析も提供され、複数の数値結果が提案されたFedXGBの優位性を示しています。
論文参考訳（メタデータ） (2021-05-12T15:04:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。