論文の概要: A Closer Look at Deep Learning Methods on Tabular Datasets
- arxiv url: http://arxiv.org/abs/2407.00956v4
- Date: Fri, 07 Nov 2025 09:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 14:53:49.369284
- Title: A Closer Look at Deep Learning Methods on Tabular Datasets
- Title(参考訳): 語彙データセットの深層学習法について
- Authors: Han-Jia Ye, Si-Yang Liu, Hao-Run Cai, Qi-Le Zhou, De-Chuan Zhan,
- Abstract要約: 広い範囲にまたがる300以上のデータセットの集合であるTALENTについて広範な研究を行った。
我々の評価では、アンサンブルは木に基づくアプローチとニューラルアプローチの両方に効果があることが示されている。
- 参考スコア(独自算出の注目度): 78.61845513154502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is prevalent across diverse domains in machine learning. With the rapid progress of deep tabular prediction methods, especially pretrained (foundation) models, there is a growing need to evaluate these methods systematically and to understand their behavior. We present an extensive study on TALENT, a collection of 300+ datasets spanning broad ranges of size, feature composition (numerical/categorical mixes), domains, and output types (binary, multi--class, regression). Our evaluation shows that ensembling benefits both tree-based and neural approaches. Traditional gradient-boosted trees remain very strong baselines, yet recent pretrained tabular models now match or surpass them on many tasks, narrowing--but not eliminating--the historical advantage of tree ensembles. Despite architectural diversity, top performance concentrates within a small subset of models, providing practical guidance for method selection. To explain these outcomes, we quantify dataset heterogeneity by learning from meta-features and early training dynamics to predict later validation behavior. This dynamics-aware analysis indicates that heterogeneity--such as the interplay of categorical and numerical attributes--largely determines which family of methods is favored. Finally, we introduce a two-level design beyond the 300 common-size datasets: a compact TALENT-tiny core (45 datasets) for rapid, reproducible evaluation, and a TALENT-extension suite targeting high-dimensional, many-class, and very large-scale settings for stress testing. In summary, these results offer actionable insights into the strengths, limitations, and future directions for improving deep tabular learning.
- Abstract(参考訳): タブラルデータは、機械学習のさまざまな領域で広く使われている。
表層予測手法,特に事前訓練(基礎)モデルの急速な進歩により,これらの手法を体系的に評価し,その振る舞いを理解する必要性が高まっている。
本稿では,幅広いサイズ,特徴構成(数値/分類混合),ドメイン,出力型(バイナリ,マルチクラス,回帰)にまたがる300以上のデータセットの集合であるTALENTについて広範な研究を行う。
我々の評価では、アンサンブルは木に基づくアプローチとニューラルアプローチの両方に効果があることが示されている。
伝統的な勾配木は非常に強いベースラインを保っているが、近年の事前訓練された表層モデルは、多くのタスクでそれらをマッチングまたは超越し、縮小している。
アーキテクチャの多様性にもかかわらず、トップパフォーマンスはモデルの小さなサブセットに集中しており、メソッド選択の実践的なガイダンスを提供する。
これらの結果を説明するために、メタ機能から学習し、初期のトレーニングダイナミクスを用いてデータセットの不均一性を定量化し、後の検証動作を予測する。
このダイナミックス・アウェア分析は、カテゴリー的属性と数値的属性の相互作用のような異質性が、どのメソッドが好まれるかを広く決定することを示している。
最後に、高速かつ再現可能な評価のためのコンパクトなTALENT-tinyコア(45データセット)と、高次元、多クラス、および非常に大規模なストレステスト設定をターゲットとしたTALENT-extensionスイートという、300の一般的なデータセットを超える2段階の設計を導入する。
要約すると、これらの結果は、深い表型学習を改善するための強み、限界、今後の方向性に関する実用的な洞察を提供する。
関連論文リスト
- Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard [27.224577475861214]
機械学習の基本的なデータフォーマットであるタブラルデータは、競争や現実世界のアプリケーションで主に利用されている。
本研究では,大規模言語モデルを活用したテキスト内アンサンブルフレームワークを提案する。
提案手法は,各テストインスタンスの周囲のコンテキストを,その近傍と外部モデルのプールからの予測を用いて構築する。
論文 参考訳(メタデータ) (2025-05-19T17:52:58Z) - Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。
ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。
既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文 参考訳(メタデータ) (2025-04-17T17:58:23Z) - Mambular: A Sequential Model for Tabular Deep Learning [0.7184556517162347]
本稿では,グラフデータに対する自己回帰状態空間モデルの利用について検討する。
既存のベンチマークモデルと比較する。
その結果,特徴をシーケンスとして解釈して処理することで,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-08-12T16:57:57Z) - Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。
学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。
また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2024-07-03T16:38:57Z) - Is Deep Learning finally better than Decision Trees on Tabular Data? [19.657605376506357]
タブラルデータは、多くの現実世界のアプリケーションでその汎用性と使いやすさのために、ユビキタスなデータモダリティである。
データに関する最近の研究は、この領域におけるニューラルネットワークの限界についてユニークな視点を提供する。
本研究は、その基礎となる学習パラダイムに基づいて、10の最先端モデルを分類する。
論文 参考訳(メタデータ) (2024-02-06T12:59:02Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data [9.107782510356989]
そこで本研究では,エンドツーエンドの勾配勾配勾配を用いた軸方向決定木アンサンブルの学習手法を提案する。
Grandeはツリーアンサンブルの密度の高い表現に基づいており、ストレートスルー演算子でバックプロパゲーションを使用することができる。
提案手法は,ほとんどのデータセットにおいて,既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T10:49:14Z) - A Coreset Learning Reality Check [33.002265576337486]
サブサンプリングアルゴリズムは、巨大なデータセットにモデルを適合させる前に、データサイズを減らすための自然なアプローチである。
近年,データ行列から行をサブサンプリングする手法がいくつか提案されている。
コアセットおよび最適サブサンプリング文献から引き出されたロジスティック回帰の複数の手法を比較し,その有効性の矛盾を明らかにする。
論文 参考訳(メタデータ) (2023-01-15T19:26:17Z) - Improving Data Quality with Training Dynamics of Gradient Boosting
Decision Trees [1.5605040219256345]
そこで本研究では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスを指標として,各トレーニング例の振る舞いを評価する手法を提案する。
提案手法を応用した業界事例では, 秩序なデータセットにおけるノイズラベルの検出, 合成および実際の公開データセットにおけるモデルのメトリクスの改善, および, 提案手法に基づくモデル展開の事例について述べる。
論文 参考訳(メタデータ) (2022-10-20T15:02:49Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。
木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文 参考訳(メタデータ) (2022-07-18T08:36:08Z) - A Topological Approach for Semi-Supervised Learning [0.0]
トポロジカルデータ分析(TDA)に基づく半教師付き学習手法を提案する。
特に,2つの異なるトポロジ的アプローチに従って,2つの半教師付き学習手法を開発した。
本研究で開発された手法は,手作業でラベル付けしたデータのみを学習したモデルと,従来の半教師付き学習手法を用いて学習したモデルとを比較検討した。
論文 参考訳(メタデータ) (2022-05-19T15:23:39Z) - A Topological Data Analysis Based Classifier [1.6668132748773563]
本稿では,多クラス分類問題に直接トポロジカルデータ解析を適用するアルゴリズムを提案する。
提案アルゴリズムは,データセット上にフィルタされた単純複合体を構築する。
提案手法は平均してKNNと重み付きKNNよりも優れていた。
論文 参考訳(メタデータ) (2021-11-09T15:54:16Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。