論文の概要: A Closer Look at Deep Learning Methods on Tabular Datasets
- arxiv url: http://arxiv.org/abs/2407.00956v2
- Date: Thu, 02 Jan 2025 16:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 14:33:46.296709
- Title: A Closer Look at Deep Learning Methods on Tabular Datasets
- Title(参考訳): 語彙データセットの深層学習法について
- Authors: Han-Jia Ye, Si-Yang Liu, Hao-Run Cai, Qi-Le Zhou, De-Chuan Zhan,
- Abstract要約: タブラルデータは、機械学習のさまざまな領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。
我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
- 参考スコア(独自算出の注目度): 52.50778536274327
- License:
- Abstract: Tabular data is prevalent across diverse domains in machine learning. While classical methods like tree-based models have long been effective, Deep Neural Network (DNN)-based methods have recently demonstrated promising performance. However, the diverse characteristics of methods and the inherent heterogeneity of tabular datasets make understanding and interpreting tabular methods both challenging and prone to unstable observations. In this paper, we conduct in-depth evaluations and comprehensive analyses of tabular methods, with a particular focus on DNN-based models, using a benchmark of over 300 tabular datasets spanning a wide range of task types, sizes, and domains. First, we perform an extensive comparison of 32 state-of-the-art deep and tree-based methods, evaluating their average performance across multiple criteria. Although method ranks vary across datasets, we empirically find that top-performing methods tend to concentrate within a small subset of tabular models, regardless of the criteria used. Next, we investigate whether the training dynamics of deep tabular models can be predicted based on dataset properties. This approach not only offers insights into the behavior of deep tabular methods but also identifies a core set of "meta-features" that reflect dataset heterogeneity. The other subset includes datasets where method ranks are consistent with the overall benchmark, acting as a reliable probe for further tabular analysis.
- Abstract(参考訳): タブラルデータは、機械学習のさまざまな領域で広く使われている。
ツリーベースモデルのような古典的な手法は以前から有効であったが、Deep Neural Network(DNN)ベースの手法は最近、有望な性能を示した。
しかし,多種多様な手法の特徴と表層データセットの固有不均一性により,表層手法の理解と解釈は困難であり,不安定な観察が困難である。
本稿では,多種多様なタスクタイプ,サイズ,ドメインにまたがる300以上の表型データセットのベンチマークを用いて,DNNモデルに着目した表型手法の詳細な評価と包括的分析を行う。
まず,32種類の最先端の木と木をベースとした手法を比較し,その平均性能を複数の基準で評価する。
手法のランクはデータセットによって異なるが、トップパフォーマンスの手法は使用する基準に関係なく、表モデルの小さなサブセットに集中する傾向があることを実証的に見出した。
次に、データセット特性に基づいて、深層表モデルのトレーニングダイナミクスを予測できるかどうかを検討する。
このアプローチは、深い表形式のメソッドの振る舞いに関する洞察を提供するだけでなく、データセットの不均一性を反映した"メタ機能"のコアセットを特定する。
他のサブセットには、メソッドのランクがベンチマーク全体と一致しているデータセットが含まれており、さらにタブ解析のための信頼性の高いプローブとして機能している。
関連論文リスト
- Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data [9.107782510356989]
そこで本研究では,エンドツーエンドの勾配勾配勾配を用いた軸方向決定木アンサンブルの学習手法を提案する。
Grandeはツリーアンサンブルの密度の高い表現に基づいており、ストレートスルー演算子でバックプロパゲーションを使用することができる。
提案手法は,ほとんどのデータセットにおいて,既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T10:49:14Z) - Improving Data Quality with Training Dynamics of Gradient Boosting
Decision Trees [1.5605040219256345]
そこで本研究では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスを指標として,各トレーニング例の振る舞いを評価する手法を提案する。
提案手法を応用した業界事例では, 秩序なデータセットにおけるノイズラベルの検出, 合成および実際の公開データセットにおけるモデルのメトリクスの改善, および, 提案手法に基づくモデル展開の事例について述べる。
論文 参考訳(メタデータ) (2022-10-20T15:02:49Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - A Topological Approach for Semi-Supervised Learning [0.0]
トポロジカルデータ分析(TDA)に基づく半教師付き学習手法を提案する。
特に,2つの異なるトポロジ的アプローチに従って,2つの半教師付き学習手法を開発した。
本研究で開発された手法は,手作業でラベル付けしたデータのみを学習したモデルと,従来の半教師付き学習手法を用いて学習したモデルとを比較検討した。
論文 参考訳(メタデータ) (2022-05-19T15:23:39Z) - A Topological Data Analysis Based Classifier [1.6668132748773563]
本稿では,多クラス分類問題に直接トポロジカルデータ解析を適用するアルゴリズムを提案する。
提案アルゴリズムは,データセット上にフィルタされた単純複合体を構築する。
提案手法は平均してKNNと重み付きKNNよりも優れていた。
論文 参考訳(メタデータ) (2021-11-09T15:54:16Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。