論文の概要: A Closer Look at Deep Learning on Tabular Data
- arxiv url: http://arxiv.org/abs/2407.00956v1
- Date: Mon, 1 Jul 2024 04:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:46:07.624941
- Title: A Closer Look at Deep Learning on Tabular Data
- Title(参考訳): 語彙データの深層学習についての一考察
- Authors: Han-Jia Ye, Si-Yang Liu, Hao-Run Cai, Qi-Le Zhou, De-Chuan Zhan,
- Abstract要約: タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 52.50778536274327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is prevalent across various domains in machine learning. Although Deep Neural Network (DNN)-based methods have shown promising performance comparable to tree-based ones, in-depth evaluation of these methods is challenging due to varying performance ranks across diverse datasets. In this paper, we propose a comprehensive benchmark comprising 300 tabular datasets, covering a wide range of task types, size distributions, and domains. We perform an extensive comparison between state-of-the-art deep tabular methods and tree-based methods, revealing the average rank of all methods and highlighting the key factors that influence the success of deep tabular methods. Next, we analyze deep tabular methods based on their training dynamics, including changes in validation metrics and other statistics. For each dataset-method pair, we learn a mapping from both the meta-features of datasets and the first part of the validation curve to the final validation set performance and even the evolution of validation curves. This mapping extracts essential meta-features that influence prediction accuracy, helping the analysis of tabular methods from novel aspects. Based on the performance of all methods on this large benchmark, we identify two subsets of 45 datasets each. The first subset contains datasets that favor either tree-based methods or DNN-based methods, serving as effective analysis tools to evaluate strategies (e.g., attribute encoding strategies) for improving deep tabular models. The second subset contains datasets where the ranks of methods are consistent with the overall benchmark, acting as a probe for tabular analysis. These ``tiny tabular benchmarks'' will facilitate further studies on tabular data.
- Abstract(参考訳): タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースの手法に匹敵する有望なパフォーマンスを示しているが、これらの手法の詳細な評価は、さまざまなデータセットのパフォーマンスランキングが異なるため、難しい。
本稿では,幅広いタスクタイプ,サイズ分布,ドメインを網羅した,300の表型データセットからなる総合的なベンチマークを提案する。
我々は,最先端の表形式手法と木系手法の広範な比較を行い,各手法の平均ランクを明らかにし,表形式手法の成功に影響を及ぼす重要な要因を明らかにする。
次に、評価指標の変更やその他の統計情報を含む、トレーニングのダイナミクスに基づいて、深い表型手法を解析する。
各データセット-メソッドペアに対して、データセットのメタ機能とバリデーション曲線の最初の部分から最終的なバリデーションセットのパフォーマンス、さらにはバリデーション曲線の進化までのマッピングを学習する。
このマッピングは,予測精度に影響を与える重要なメタ特徴を抽出し,新しい側面から表計算法の解析を支援する。
この大規模ベンチマークにおける全てのメソッドのパフォーマンスに基づいて、45のデータセットのサブセットをそれぞれ2つ同定する。
最初のサブセットには、ツリーベースのメソッドかDNNベースのメソッドのいずれかを好むデータセットが含まれており、深い表形式モデルを改善するための戦略(属性エンコーディング戦略など)を評価する効果的な分析ツールとして機能する。
第2サブセットには、メソッドのランクがベンチマーク全体と一致しているデータセットが含まれており、グラフ解析のプローブとして機能している。
これらの ‘tiny tabular benchmarks' は、表データのさらなる研究を促進する。
関連論文リスト
- Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data [9.107782510356989]
そこで本研究では,エンドツーエンドの勾配勾配勾配を用いた軸方向決定木アンサンブルの学習手法を提案する。
Grandeはツリーアンサンブルの密度の高い表現に基づいており、ストレートスルー演算子でバックプロパゲーションを使用することができる。
提案手法は,ほとんどのデータセットにおいて,既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T10:49:14Z) - Improving Data Quality with Training Dynamics of Gradient Boosting
Decision Trees [1.5605040219256345]
そこで本研究では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスを指標として,各トレーニング例の振る舞いを評価する手法を提案する。
提案手法を応用した業界事例では, 秩序なデータセットにおけるノイズラベルの検出, 合成および実際の公開データセットにおけるモデルのメトリクスの改善, および, 提案手法に基づくモデル展開の事例について述べる。
論文 参考訳(メタデータ) (2022-10-20T15:02:49Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - A Topological Approach for Semi-Supervised Learning [0.0]
トポロジカルデータ分析(TDA)に基づく半教師付き学習手法を提案する。
特に,2つの異なるトポロジ的アプローチに従って,2つの半教師付き学習手法を開発した。
本研究で開発された手法は,手作業でラベル付けしたデータのみを学習したモデルと,従来の半教師付き学習手法を用いて学習したモデルとを比較検討した。
論文 参考訳(メタデータ) (2022-05-19T15:23:39Z) - A Topological Data Analysis Based Classifier [1.6668132748773563]
本稿では,多クラス分類問題に直接トポロジカルデータ解析を適用するアルゴリズムを提案する。
提案アルゴリズムは,データセット上にフィルタされた単純複合体を構築する。
提案手法は平均してKNNと重み付きKNNよりも優れていた。
論文 参考訳(メタデータ) (2021-11-09T15:54:16Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。