論文の概要: Squeezing Lemons with Hammers: An Evaluation of AutoML and Tabular Deep Learning for Data-Scarce Classification Applications
- arxiv url: http://arxiv.org/abs/2405.07662v1
- Date: Mon, 13 May 2024 11:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:55:08.829426
- Title: Squeezing Lemons with Hammers: An Evaluation of AutoML and Tabular Deep Learning for Data-Scarce Classification Applications
- Title(参考訳): ハマーを用いたスキューズレモン:データ・スカース分類のためのオートMLとタブラルディープラーニングの評価
- Authors: Ricardo Knauer, Erik Rodner,
- Abstract要約: L2正規化ロジスティック回帰は、最先端の自動機械学習(AutoML)フレームワークと同様の性能を発揮する。
データスカースアプリケーションの第1選択として、ロジスティック回帰を考慮することをお勧めします。
- 参考スコア(独自算出の注目度): 2.663744975320783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many industry verticals are confronted with small-sized tabular data. In this low-data regime, it is currently unclear whether the best performance can be expected from simple baselines, or more complex machine learning approaches that leverage meta-learning and ensembling. On 44 tabular classification datasets with sample sizes $\leq$ 500, we find that L2-regularized logistic regression performs similar to state-of-the-art automated machine learning (AutoML) frameworks (AutoPrognosis, AutoGluon) and off-the-shelf deep neural networks (TabPFN, HyperFast) on the majority of the benchmark datasets. We therefore recommend to consider logistic regression as the first choice for data-scarce applications with tabular data and provide practitioners with best practices for further method selection.
- Abstract(参考訳): 多くの業界では、小さなタブ形式のデータに直面しています。
この低データ構造では、単純なベースラインから最高のパフォーマンスを期待できるか、メタラーニングとアンサンブルを利用するより複雑な機械学習アプローチなのか、現時点では不明である。
サンプルサイズが$\leq$500の44のグラフ分類データセットでは、L2正規化ロジスティック回帰が、ほとんどのベンチマークデータセット上で、最先端の自動機械学習(AutoML)フレームワーク(AutoPrognosis、AutoGluon)やオフ・ザ・シェルフディープニューラルネットワーク(TabPFN、HyperFast)と同じようなパフォーマンスを発揮することが分かりました。
そこで本稿では,ロジスティック回帰を表型データを用いたデータ共有アプリケーションの第1選択として検討し,実践者にさらなるメソッド選択のためのベストプラクティスを提供することを推奨する。
関連論文リスト
- forester: A Tree-Based AutoML Tool in R [0.0]
ForesterはオープンソースのAutoMLパッケージで、Rで実装され、高品質なツリーベースのモデルをトレーニングする。
バイナリとマルチクラスの分類、回帰、部分生存分析タスクを完全にサポートする。
データ品質に関する問題を検出し、前処理パイプラインを準備し、ツリーベースのモデルのトレーニングとチューニングを行い、結果を評価し、さらなる分析のためにレポートを作成することができる。
論文 参考訳(メタデータ) (2024-09-07T10:39:10Z) - PMLBmini: A Tabular Classification Benchmark Suite for Data-Scarce Applications [2.3700911865675187]
PMLBminiは、サンプルサイズが$leq$500の44のバイナリ分類データセットのベンチマークスイートである。
当社のスイートを使用して、現在の自動機械学習(AutoML)フレームワークを徹底的に評価しています。
我々の分析によると、最先端のAutoMLとディープラーニングのアプローチは、単純なロジスティック回帰ベースラインでさえ、良好に上回らないことが多い。
論文 参考訳(メタデータ) (2024-09-03T06:13:03Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - TabRepo: A Large Scale Repository of Tabular Model Evaluations and its AutoML Applications [9.457938949410583]
TabRepoは、モデル評価と予測の新しいデータセットである。
200データセットで評価された1310モデルの予測とメトリクスを含んでいる。
論文 参考訳(メタデータ) (2023-11-06T09:17:18Z) - Neuro-Symbolic Language Modeling with Automaton-augmented Retrieval [129.25914272977542]
RetoMatonはデータストア上に構築された重み付き有限オートマトンである。
LM推論と並行して、このオートマトンを推論時にトラバースすることは、その複雑さを減少させる。
論文 参考訳(メタデータ) (2022-01-28T21:38:56Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - AutoRec: An Automated Recommender System [44.11798716678736]
エコシステムから拡張された、オープンソースの自動機械学習(AutoML)プラットフォームであるAutoRecを紹介します。
AutoRecはスパースとディープインプットの両方に対応可能な、非常にフレキシブルなパイプラインをサポートする。
ベンチマークデータセットで実施された実験によると、AutoRecは信頼性が高く、事前の知識なしに最高のモデルに似たモデルを特定することができる。
論文 参考訳(メタデータ) (2020-06-26T17:04:53Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Auto-PyTorch Tabular: Multi-Fidelity MetaLearning for Efficient and
Robust AutoDL [53.40030379661183]
Auto-PyTorchは、完全に自動化されたディープラーニング(AutoDL)を実現するフレームワーク
ディープニューラルネットワーク(DNN)のウォームスタートとアンサンブルのためのマルチフィデリティ最適化とポートフォリオ構築を組み合わせる。
Auto-PyTorchは、いくつかの最先端の競合製品よりもパフォーマンスが良いことを示す。
論文 参考訳(メタデータ) (2020-06-24T15:15:17Z) - AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data [120.2298620652828]
オープンソースのAutoMLフレームワークであるAutoGluon-Tabularを紹介します。
KaggleとOpenML AutoML Benchmarkの50の分類および回帰タスクからなるスイートのテストによると、AutoGluonはより速く、より堅牢で、はるかに正確である。
論文 参考訳(メタデータ) (2020-03-13T23:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。