論文の概要: Auto-FP: An Experimental Study of Automated Feature Preprocessing for
Tabular Data
- arxiv url: http://arxiv.org/abs/2310.02540v1
- Date: Wed, 4 Oct 2023 02:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:40:22.312586
- Title: Auto-FP: An Experimental Study of Automated Feature Preprocessing for
Tabular Data
- Title(参考訳): Auto-FP: タブラルデータの自動特徴前処理の実験的検討
- Authors: Danrui Qi and Jinglin Peng and Yongjun He and Jiannan Wang
- Abstract要約: 機能前処理は、優れたモデル品質を保証するための重要なステップです。
大規模な検索スペースのため、ブルートフォースソリューションは違法に高価である。
我々は、Auto-FP問題を解決するために、様々なHPOおよびNASアルゴリズムを拡張した。
- 参考スコア(独自算出の注目度): 10.740391800262685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical machine learning models, such as linear models and tree-based
models, are widely used in industry. These models are sensitive to data
distribution, thus feature preprocessing, which transforms features from one
distribution to another, is a crucial step to ensure good model quality.
Manually constructing a feature preprocessing pipeline is challenging because
data scientists need to make difficult decisions about which preprocessors to
select and in which order to compose them. In this paper, we study how to
automate feature preprocessing (Auto-FP) for tabular data. Due to the large
search space, a brute-force solution is prohibitively expensive. To address
this challenge, we interestingly observe that Auto-FP can be modelled as either
a hyperparameter optimization (HPO) or a neural architecture search (NAS)
problem. This observation enables us to extend a variety of HPO and NAS
algorithms to solve the Auto-FP problem. We conduct a comprehensive evaluation
and analysis of 15 algorithms on 45 public ML datasets. Overall,
evolution-based algorithms show the leading average ranking. Surprisingly, the
random search turns out to be a strong baseline. Many surrogate-model-based and
bandit-based search algorithms, which achieve good performance for HPO and NAS,
do not outperform random search for Auto-FP. We analyze the reasons for our
findings and conduct a bottleneck analysis to identify the opportunities to
improve these algorithms. Furthermore, we explore how to extend Auto-FP to
support parameter search and compare two ways to achieve this goal. In the end,
we evaluate Auto-FP in an AutoML context and discuss the limitations of popular
AutoML tools. To the best of our knowledge, this is the first study on
automated feature preprocessing. We hope our work can inspire researchers to
develop new algorithms tailored for Auto-FP.
- Abstract(参考訳): 線形モデルやツリーベースモデルといった古典的な機械学習モデルは、業界で広く使われている。
これらのモデルはデータ分散に敏感であるため、機能前処理(機能前処理)は、優れたモデル品質を保証するための重要なステップである。
データサイエンティストは、どのプリプロセッサを選択し、どの順番でそれらを構成するかという難しい決断をする必要があるため、手動で機能前処理パイプラインを構築することは難しい。
本稿では,表データに対する機能前処理(Auto-FP)の自動化について検討する。
検索スペースが大きいため、ブルートフォースソリューションは極めて高価である。
この課題に対処するために、我々はauto-fpをハイパーパラメータ最適化(hpo)またはニューラルネットワーク探索(nas)問題としてモデル化できることを興味深い観察する。
この観測により、Auto-FP問題を解決するために様々なHPOおよびNASアルゴリズムを拡張できる。
45のパブリックmlデータセット上で,15のアルゴリズムの包括的評価と解析を行う。
全体としては、進化に基づくアルゴリズムが平均ランクをリードしている。
驚くべきことに、ランダム検索は強力なベースラインであることが判明した。
HPO や NAS に優れた性能を持つサロゲートモデルと帯域ベース検索アルゴリズムの多くは,Auto-FP のランダム検索に勝っていない。
この結果の理由を分析し、ボトルネック分析を行い、これらのアルゴリズムを改良する機会を特定する。
さらに、パラメータ検索をサポートするためにAuto-FPを拡張し、この目標を達成するための2つの方法を比較する。
最後に、Auto-FPをAutoMLコンテキストで評価し、人気のあるAutoMLツールの限界について議論する。
私たちの知る限りでは、これは自動機能前処理に関する最初の研究です。
われわれの研究が、Auto-FPに適した新しいアルゴリズムの開発を促すことを願っている。
関連論文リスト
- AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - OutRank: Speeding up AutoML-based Model Search for Large Sparse Data
sets with Cardinality-aware Feature Ranking [0.0]
特徴量ランキングとデータ品質関連異常検出のためのシステムであるOutRankを紹介する。
提案したアプローチでは,AutoMLのみのアプローチに比べて最大300%大きな機能空間の探索が可能になる。
論文 参考訳(メタデータ) (2023-09-04T12:07:20Z) - AutoEn: An AutoML method based on ensembles of predefined Machine
Learning pipelines for supervised Traffic Forecasting [1.6242924916178283]
交通予測(TF)は、将来の交通状況を予測することで交通渋滞を緩和する能力により、関連性が高まっている。
TFは、モデル選択問題(MSP)として知られる機械学習パラダイムに大きな課題を提起する。
事前に定義されたMLパイプラインの集合からマルチクラス化アンサンブルを自動生成する,シンプルで効率的な手法であるAutoEnを紹介する。
論文 参考訳(メタデータ) (2023-03-19T18:37:18Z) - AutoSlicer: Scalable Automated Data Slicing for ML Model Analysis [3.3446830960153555]
本稿では,分散メトリクス計算と仮説テストにより問題スライスを探索するスケーラブルなシステムであるAutoslicerを提案する。
実験では,探索空間のごく一部を検査することで,異常なスライスの大部分を探索戦略が発見できることを示した。
論文 参考訳(メタデータ) (2022-12-18T07:49:17Z) - A new Sparse Auto-encoder based Framework using Grey Wolf Optimizer for
Data Classification Problem [0.0]
列車のスパースオートエンコーダにグレーオオカミ最適化(GWO)を適用する。
モデルは、いくつかの人気のあるGene式データベースを使用することで検証される。
その結果、GWOを用いた学習モデルの性能は、一般的なメタヒューリスティックアルゴリズムで訓練された従来のモデルとモデルの両方で優れていた。
論文 参考訳(メタデータ) (2022-01-29T04:28:30Z) - Resource-Aware Pareto-Optimal Automated Machine Learning Platform [1.6746303554275583]
新プラットフォーム Resource-Aware AutoML (RA-AutoML)
RA-AutoMLは、フレキシブルで一般化されたアルゴリズムで、複数の目的に合わせた機械学習モデルを構築することができる。
論文 参考訳(メタデータ) (2020-10-30T19:37:48Z) - Auto-PyTorch Tabular: Multi-Fidelity MetaLearning for Efficient and
Robust AutoDL [53.40030379661183]
Auto-PyTorchは、完全に自動化されたディープラーニング(AutoDL)を実現するフレームワーク
ディープニューラルネットワーク(DNN)のウォームスタートとアンサンブルのためのマルチフィデリティ最適化とポートフォリオ構築を組み合わせる。
Auto-PyTorchは、いくつかの最先端の競合製品よりもパフォーマンスが良いことを示す。
論文 参考訳(メタデータ) (2020-06-24T15:15:17Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。