論文の概要: A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data
- arxiv url: http://arxiv.org/abs/2407.02112v2
- Date: Mon, 26 Aug 2024 09:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 22:57:33.309299
- Title: A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data
- Title(参考訳): 語彙データに対する機械学習モデルの評価に関するデータ中心的視点
- Authors: Andrej Tschalzev, Sascha Marton, Stefan Lüdtke, Christian Bartelt, Heiner Stuckenschmidt,
- Abstract要約: 実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
- 参考スコア(独自算出の注目度): 9.57464542357693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data is prevalent in real-world machine learning applications, and new models for supervised learning of tabular data are frequently proposed. Comparative studies assessing the performance of models typically consist of model-centric evaluation setups with overly standardized data preprocessing. This paper demonstrates that such model-centric evaluations are biased, as real-world modeling pipelines often require dataset-specific preprocessing and feature engineering. Therefore, we propose a data-centric evaluation framework. We select 10 relevant datasets from Kaggle competitions and implement expert-level preprocessing pipelines for each dataset. We conduct experiments with different preprocessing pipelines and hyperparameter optimization (HPO) regimes to quantify the impact of model selection, HPO, feature engineering, and test-time adaptation. Our main findings are: 1. After dataset-specific feature engineering, model rankings change considerably, performance differences decrease, and the importance of model selection reduces. 2. Recent models, despite their measurable progress, still significantly benefit from manual feature engineering. This holds true for both tree-based models and neural networks. 3. While tabular data is typically considered static, samples are often collected over time, and adapting to distribution shifts can be important even in supposedly static data. These insights suggest that research efforts should be directed toward a data-centric perspective, acknowledging that tabular data requires feature engineering and often exhibits temporal characteristics. Our framework is available under: https://github.com/atschalz/dc_tabeval.
- Abstract(参考訳): タブラルデータは実世界の機械学習アプリケーションで広く使われており、表形式のデータの教師付き学習のための新しいモデルが頻繁に提案されている。
モデルの性能を評価する比較研究は、典型的には、過度に標準化されたデータ前処理を伴うモデル中心の評価設定から成り立っている。
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、そのようなモデル中心の評価は偏りがあることを実証する。
そこで本研究では,データ中心評価フレームワークを提案する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
我々は、モデル選択、HPO、機能工学、テスト時間適応の影響を定量化するために、異なる前処理パイプラインとハイパーパラメータ最適化(HPO)システムを用いて実験を行う。
主な発見は次のとおりである。
1. データセット固有の特徴工学の後, モデルランキングは大幅に変化し, 性能差が減少し, モデル選択の重要性が低下する。
2.最近のモデルは、測定可能な進歩にもかかわらず、手動機能工学の恩恵は大きい。
これはツリーベースモデルとニューラルネットワークの両方に当てはまる。
3. 表形式のデータは一般的に静的と考えられるが, サンプルは時間とともに収集されることが多く, 分布シフトへの適応は, 静的と思われるデータにおいても重要である。
これらの洞察は、研究努力がデータ中心の視点に向けられるべきであることを示唆し、表形式のデータには機能エンジニアリングが必要であり、しばしば時間的特性が現れることを認めている。
私たちのフレームワークは、https://github.com/atschalz/dc_tabeval.com/で利用可能です。
関連論文リスト
- Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Inductive biases in deep learning models for weather prediction [17.061163980363492]
我々は、最先端のディープラーニングに基づく天気予報モデルの誘導バイアスをレビューし分析する。
我々は、最も重要な帰納バイアスを特定し、より効率的で確率的なDLWPモデルへの潜在的な道のりを明らかにする。
論文 参考訳(メタデータ) (2023-04-06T14:15:46Z) - Variation of Gender Biases in Visual Recognition Models Before and After
Finetuning [29.55318393877906]
本稿では,下流タスクにおける大規模視覚認識モデルの微調整前後のバイアスの変化を計測するフレームワークを提案する。
ImageNet-21kのようなデータセットでトレーニングされた教師付きモデルは、事前学習されたバイアスを保持する傾向にある。
また、大規模データセットに微調整されたモデルでは、新しいバイアス付きアソシエーションを導入する可能性が高くなることもわかりました。
論文 参考訳(メタデータ) (2023-03-14T03:42:47Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。
現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。
重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文 参考訳(メタデータ) (2022-08-01T18:38:05Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - The Effectiveness of Discretization in Forecasting: An Empirical Study
on Neural Time Series Models [15.281725756608981]
ニューラル予測アーキテクチャの予測性能に及ぼすデータ入力および出力変換の影響について検討する。
バイナリ化は実値入力の正規化に比べてほぼ常に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-05-20T15:09:28Z) - Forecasting Industrial Aging Processes with Machine Learning Methods [0.0]
我々は、従来のステートレスモデルとより複雑なリカレントニューラルネットワークを比較して、幅広いデータ駆動モデルを評価する。
以上の結果から,リカレントモデルでは,より大きなデータセットでトレーニングした場合,ほぼ完璧な予測が得られた。
論文 参考訳(メタデータ) (2020-02-05T13:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。