論文の概要: A Closer Look at Deep Learning Methods on Tabular Datasets
- arxiv url: http://arxiv.org/abs/2407.00956v3
- Date: Wed, 15 Jan 2025 11:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:50:06.127640
- Title: A Closer Look at Deep Learning Methods on Tabular Datasets
- Title(参考訳): 語彙データセットの深層学習法について
- Authors: Han-Jia Ye, Si-Yang Liu, Hao-Run Cai, Qi-Le Zhou, De-Chuan Zhan,
- Abstract要約: タブラルデータは、機械学習のさまざまな領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。
我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
- 参考スコア(独自算出の注目度): 52.50778536274327
- License:
- Abstract: Tabular data is prevalent across diverse domains in machine learning. While classical methods like tree-based models have long been effective, Deep Neural Network (DNN)-based methods have recently demonstrated promising performance. However, the diverse characteristics of methods and the inherent heterogeneity of tabular datasets make understanding and interpreting tabular methods both challenging and prone to unstable observations. In this paper, we conduct in-depth evaluations and comprehensive analyses of tabular methods, with a particular focus on DNN-based models, using a benchmark of over 300 tabular datasets spanning a wide range of task types, sizes, and domains. First, we perform an extensive comparison of 32 state-of-the-art deep and tree-based methods, evaluating their average performance across multiple criteria. Although method ranks vary across datasets, we empirically find that top-performing methods tend to concentrate within a small subset of tabular models, regardless of the criteria used. Next, we investigate whether the training dynamics of deep tabular models can be predicted based on dataset properties. This approach not only offers insights into the behavior of deep tabular methods but also identifies a core set of "meta-features" that reflect dataset heterogeneity. The other subset includes datasets where method ranks are consistent with the overall benchmark, acting as a reliable probe for further tabular analysis.
- Abstract(参考訳): タブラルデータは、機械学習のさまざまな領域で広く使われている。
ツリーベースモデルのような古典的な手法は以前から有効であったが、Deep Neural Network(DNN)ベースの手法は最近、有望な性能を示した。
しかし,多種多様な手法の特徴と表層データセットの固有不均一性により,表層手法の理解と解釈は困難であり,不安定な観察が困難である。
本稿では,多種多様なタスクタイプ,サイズ,ドメインにまたがる300以上の表型データセットのベンチマークを用いて,DNNモデルに着目した表型手法の詳細な評価と包括的分析を行う。
まず,32種類の最先端の木と木をベースとした手法を比較し,その平均性能を複数の基準で評価する。
手法のランクはデータセットによって異なるが、トップパフォーマンスの手法は使用する基準に関係なく、表モデルの小さなサブセットに集中する傾向があることを実証的に見出した。
次に、データセット特性に基づいて、深層表モデルのトレーニングダイナミクスを予測できるかどうかを検討する。
このアプローチは、深い表形式のメソッドの振る舞いに関する洞察を提供するだけでなく、データセットの不均一性を反映した"メタ機能"のコアセットを特定する。
他のサブセットには、メソッドのランクがベンチマーク全体と一致しているデータセットが含まれており、さらにタブ解析のための信頼性の高いプローブとして機能している。
関連論文リスト
- Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Is Deep Learning finally better than Decision Trees on Tabular Data? [19.657605376506357]
タブラルデータは、多くの現実世界のアプリケーションでその汎用性と使いやすさのために、ユビキタスなデータモダリティである。
データに関する最近の研究は、この領域におけるニューラルネットワークの限界についてユニークな視点を提供する。
本研究は、その基礎となる学習パラダイムに基づいて、10の最先端モデルを分類する。
論文 参考訳(メタデータ) (2024-02-06T12:59:02Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Topological Quality of Subsets via Persistence Matching Diagrams [0.196629787330046]
我々は、トポロジカルデータ解析技術を用いて、そのデータセットに関するサブセットの品質を測定する。
特に,本手法では,選択したサブセットが教師付き学習モデルの貧弱な性能をもたらす可能性がある理由を説明することができる。
論文 参考訳(メタデータ) (2023-06-04T17:08:41Z) - A Coreset Learning Reality Check [33.002265576337486]
サブサンプリングアルゴリズムは、巨大なデータセットにモデルを適合させる前に、データサイズを減らすための自然なアプローチである。
近年,データ行列から行をサブサンプリングする手法がいくつか提案されている。
コアセットおよび最適サブサンプリング文献から引き出されたロジスティック回帰の複数の手法を比較し,その有効性の矛盾を明らかにする。
論文 参考訳(メタデータ) (2023-01-15T19:26:17Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - Statistical embedding: Beyond principal components [0.0]
3つのメソッドが提示される: $t$-SNE, UMAP と LargeVis はそれぞれ 1 と 2 と 3 のメソッドに基づいている。
これらの手法は、2つの模擬データセットで示され比較される: 1つは3重のノイズラヌキュロイド曲線と、もう1つは複雑さを増すネットワークと2種類のノードからなる。
論文 参考訳(メタデータ) (2021-06-03T14:01:21Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。