Fugu-MT 論文翻訳(概要): A Closer Look at Deep Learning on Tabular Data

論文の概要: A Closer Look at Deep Learning on Tabular Data

arxiv url: http://arxiv.org/abs/2407.00956v1
Date: Mon, 1 Jul 2024 04:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 00:46:07.624941
Title: A Closer Look at Deep Learning on Tabular Data
Title（参考訳）: 語彙データの深層学習についての一考察
Authors: Han-Jia Ye, Si-Yang Liu, Hao-Run Cai, Qi-Le Zhou, De-Chuan Zhan,
Abstract要約: タブラルデータは、機械学習の様々な領域で広く使われている。 Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
参考スコア（独自算出の注目度）: 52.50778536274327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tabular data is prevalent across various domains in machine learning. Although Deep Neural Network (DNN)-based methods have shown promising performance comparable to tree-based ones, in-depth evaluation of these methods is challenging due to varying performance ranks across diverse datasets. In this paper, we propose a comprehensive benchmark comprising 300 tabular datasets, covering a wide range of task types, size distributions, and domains. We perform an extensive comparison between state-of-the-art deep tabular methods and tree-based methods, revealing the average rank of all methods and highlighting the key factors that influence the success of deep tabular methods. Next, we analyze deep tabular methods based on their training dynamics, including changes in validation metrics and other statistics. For each dataset-method pair, we learn a mapping from both the meta-features of datasets and the first part of the validation curve to the final validation set performance and even the evolution of validation curves. This mapping extracts essential meta-features that influence prediction accuracy, helping the analysis of tabular methods from novel aspects. Based on the performance of all methods on this large benchmark, we identify two subsets of 45 datasets each. The first subset contains datasets that favor either tree-based methods or DNN-based methods, serving as effective analysis tools to evaluate strategies (e.g., attribute encoding strategies) for improving deep tabular models. The second subset contains datasets where the ranks of methods are consistent with the overall benchmark, acting as a probe for tabular analysis. These ``tiny tabular benchmarks'' will facilitate further studies on tabular data.
Abstract（参考訳）: タブラルデータは、機械学習の様々な領域で広く使われている。 Deep Neural Network(DNN)ベースの手法は、ツリーベースの手法に匹敵する有望なパフォーマンスを示しているが、これらの手法の詳細な評価は、さまざまなデータセットのパフォーマンスランキングが異なるため、難しい。本稿では,幅広いタスクタイプ,サイズ分布,ドメインを網羅した,300の表型データセットからなる総合的なベンチマークを提案する。我々は,最先端の表形式手法と木系手法の広範な比較を行い,各手法の平均ランクを明らかにし,表形式手法の成功に影響を及ぼす重要な要因を明らかにする。次に、評価指標の変更やその他の統計情報を含む、トレーニングのダイナミクスに基づいて、深い表型手法を解析する。各データセット-メソッドペアに対して、データセットのメタ機能とバリデーション曲線の最初の部分から最終的なバリデーションセットのパフォーマンス、さらにはバリデーション曲線の進化までのマッピングを学習する。このマッピングは,予測精度に影響を与える重要なメタ特徴を抽出し,新しい側面から表計算法の解析を支援する。この大規模ベンチマークにおける全てのメソッドのパフォーマンスに基づいて、45のデータセットのサブセットをそれぞれ2つ同定する。最初のサブセットには、ツリーベースのメソッドかDNNベースのメソッドのいずれかを好むデータセットが含まれており、深い表形式モデルを改善するための戦略(属性エンコーディング戦略など)を評価する効果的な分析ツールとして機能する。第2サブセットには、メソッドのランクがベンチマーク全体と一致しているデータセットが含まれており、グラフ解析のプローブとして機能している。これらの ‘tiny tabular benchmarks' は、表データのさらなる研究を促進する。

関連論文リスト

Representation Learning for Tabular Data: A Comprehensive Survey [23.606506938919605]
行と列として構造化されたタブラルデータは、機械学習の分類と回帰アプリケーションにおいて最も一般的なデータタイプの一つである。ディープニューラルネットワーク(DNN)は、最近、表現学習の能力を通じて有望な結果を実証した。既存の手法を一般化能力に応じて3つの主要なカテゴリに分類する。
論文参考訳（メタデータ） (2025-04-17T17:58:23Z)
Mambular: A Sequential Model for Tabular Deep Learning [0.7184556517162347]
本稿では,グラフデータに対する自己回帰状態空間モデルの利用について検討する。既存のベンチマークモデルと比較する。その結果,特徴をシーケンスとして解釈して処理することで,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-08-12T16:57:57Z)
Modern Neighborhood Components Analysis: A Deep Tabular Baseline Two Decades Later [59.88557193062348]
我々は、インスタンス間のセマンティックな類似性をキャプチャする線形射影を学習するために設計された古典的近傍成分分析(NCA)を再考する。学習目的の調整や深層学習アーキテクチャの統合といった微調整は,NAAの性能を著しく向上させることがわかった。また,提案したModernNCAの効率性と予測精度を向上する,近隣のサンプリング戦略も導入する。
論文参考訳（メタデータ） (2024-07-03T16:38:57Z)
Is Deep Learning finally better than Decision Trees on Tabular Data? [19.657605376506357]
タブラルデータは、多くの現実世界のアプリケーションでその汎用性と使いやすさのために、ユビキタスなデータモダリティである。データに関する最近の研究は、この領域におけるニューラルネットワークの限界についてユニークな視点を提供する。本研究は、その基礎となる学習パラダイムに基づいて、10の最先端モデルを分類する。
論文参考訳（メタデータ） (2024-02-06T12:59:02Z)
Minimally Supervised Learning using Topological Projections in Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-01-12T22:51:48Z)
A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-17T04:41:07Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
Training-Free Generalization on Heterogeneous Tabular Data via Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文参考訳（メタデータ） (2023-10-31T18:03:54Z)
GRANDE: Gradient-Based Decision Tree Ensembles for Tabular Data [9.107782510356989]
そこで本研究では,エンドツーエンドの勾配勾配勾配を用いた軸方向決定木アンサンブルの学習手法を提案する。 Grandeはツリーアンサンブルの密度の高い表現に基づいており、ストレートスルー演算子でバックプロパゲーションを使用することができる。提案手法は,ほとんどのデータセットにおいて,既存の勾配ブースティングおよびディープラーニングフレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2023-09-29T10:49:14Z)
A Coreset Learning Reality Check [33.002265576337486]
サブサンプリングアルゴリズムは、巨大なデータセットにモデルを適合させる前に、データサイズを減らすための自然なアプローチである。近年,データ行列から行をサブサンプリングする手法がいくつか提案されている。コアセットおよび最適サブサンプリング文献から引き出されたロジスティック回帰の複数の手法を比較し,その有効性の矛盾を明らかにする。
論文参考訳（メタデータ） (2023-01-15T19:26:17Z)
Improving Data Quality with Training Dynamics of Gradient Boosting Decision Trees [1.5605040219256345]
そこで本研究では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスを指標として,各トレーニング例の振る舞いを評価する手法を提案する。提案手法を応用した業界事例では, 秩序なデータセットにおけるノイズラベルの検出, 合成および実際の公開データセットにおけるモデルのメトリクスの改善, および, 提案手法に基づくモデル展開の事例について述べる。
論文参考訳（メタデータ） (2022-10-20T15:02:49Z)
TabLLM: Few-shot Classification of Tabular Data with Large Language Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文参考訳（メタデータ） (2022-10-19T17:08:13Z)
Is margin all you need? An extensive empirical study of active learning on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文参考訳（メタデータ） (2022-10-07T21:18:24Z)
Why do tree-based models still outperform deep learning on tabular data? [0.0]
木をベースとしたモデルが中規模データの最先端のままであることを示す。木系モデルとニューラルネットワーク(NN)の異なる帰納バイアスに関する実証的研究を行う。
論文参考訳（メタデータ） (2022-07-18T08:36:08Z)
A Topological Approach for Semi-Supervised Learning [0.0]
トポロジカルデータ分析(TDA)に基づく半教師付き学習手法を提案する。特に,2つの異なるトポロジ的アプローチに従って,2つの半教師付き学習手法を開発した。本研究で開発された手法は,手作業でラベル付けしたデータのみを学習したモデルと,従来の半教師付き学習手法を用いて学習したモデルとを比較検討した。
論文参考訳（メタデータ） (2022-05-19T15:23:39Z)
A Topological Data Analysis Based Classifier [1.6668132748773563]
本稿では,多クラス分類問題に直接トポロジカルデータ解析を適用するアルゴリズムを提案する。提案アルゴリズムは,データセット上にフィルタされた単純複合体を構築する。提案手法は平均してKNNと重み付きKNNよりも優れていた。
論文参考訳（メタデータ） (2021-11-09T15:54:16Z)
Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文参考訳（メタデータ） (2021-05-23T19:21:55Z)
Evaluating the Disentanglement of Deep Generative Models through Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文参考訳（メタデータ） (2020-06-05T20:54:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。