論文の概要: Robustness of AutoML on Dirty Categorical Data
- arxiv url: http://arxiv.org/abs/2602.00412v1
- Date: Sat, 31 Jan 2026 00:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.170089
- Title: Robustness of AutoML on Dirty Categorical Data
- Title(参考訳): ディワーティカテゴリーデータにおけるAutoMLのロバスト性
- Authors: Marcos L. P. Bueno, Joaquin Vanschoren,
- Abstract要約: 自動機械学習(AutoML)の目標は、機械学習(ML)を行う際の試行錯誤を減らすことである。
近年の研究では、MLモデルが汚い分類データに対する形態的エンコーダの恩恵を受け、予測性能が向上することが示されている。
本稿では,分類データを数値データに変換するパイプラインを提案し,より高度な符号化方式によって変換された分類データをAutoMLで処理できるようにする。
- 参考スコア(独自算出の注目度): 10.798536038901903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of automated machine learning (AutoML) is to reduce trial and error when doing machine learning (ML). Although AutoML methods for classification are able to deal with data imperfections, such as outliers, multiple scales and missing data, their behavior is less known on dirty categorical datasets. These datasets often have several categorical features with high cardinality arising from issues such as lack of curation and automated collection. Recent research has shown that ML models can benefit from morphological encoders for dirty categorical data, leading to significantly superior predictive performance. However the effects of using such encoders in AutoML methods are not known at the moment. In this paper, we propose a pipeline that transforms categorical data into numerical data so that an AutoML can handle categorical data transformed by more advanced encoding schemes. We benchmark the current robustness of AutoML methods on a set of dirty datasets and compare it with the proposed pipeline. This allows us to get insight on differences in predictive performance. We also look at the ML pipelines built by AutoMLs in order to gain insight beyond the best model as typically returned by these methods.
- Abstract(参考訳): 自動機械学習(AutoML)の目標は、機械学習(ML)を行う際の試行錯誤を減らすことである。
分類のためのAutoMLメソッドは、外れ値、複数のスケール、欠落データなどのデータ不完全性を扱うことができるが、それらの振る舞いは汚い分類データセットでは知られていない。
これらのデータセットは、キュレーションの欠如や自動収集といった問題に起因する高濃度のいくつかのカテゴリの特徴を持つことが多い。
近年の研究では、MLモデルが汚い分類データに対する形態的エンコーダの恩恵を受け、予測性能が著しく向上することが示されている。
しかし、このようなエンコーダをAutoMLメソッドで使用する効果は現時点では分かっていない。
本稿では,分類データを数値データに変換するパイプラインを提案し,より高度な符号化方式によって変換された分類データをAutoMLで処理できるようにする。
汚いデータセットのセット上でAutoMLメソッドの現在の堅牢性をベンチマークし、提案したパイプラインと比較する。
これにより、予測性能の違いを把握できます。
また、AutoMLが構築したMLパイプラインを見て、これらのメソッドによって通常返される最高のモデルを越えて洞察を得ることができます。
関連論文リスト
- The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - SubStrat: A Subset-Based Strategy for Faster AutoML [5.833272638548153]
SubStratは、設定スペースではなく、データサイズに取り組むAutoML最適化戦略である。
既存のAutoMLツールをラップし、データセット全体を直接実行する代わりに、SubStratは遺伝的アルゴリズムを使用して小さなサブセットを見つける。
その後、小さなサブセットにAutoMLツールを使用し、最後に、大きなデータセット上で制限された、はるかに短いAutoMLプロセスを実行することで、結果のパイプラインを洗練する。
論文 参考訳(メタデータ) (2022-06-07T07:44:06Z) - Towards Green Automated Machine Learning: Status Quo and Future
Directions [71.86820260846369]
AutoMLは高いリソース消費で批判されている。
本稿では,AutoMLプロセス全体を環境に優しいものにするためのパラダイムであるGreen AutoMLを提案する。
論文 参考訳(メタデータ) (2021-11-10T18:57:27Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - Man versus Machine: AutoML and Human Experts' Role in Phishing Detection [4.124446337711138]
本稿では,10種類のフィッシングデータセット上での6つの最先端AutoMLフレームワークのパフォーマンスを比較した。
以上の結果から,AutoMLベースのモデルでは,複雑な分類タスクにおいて,手作業で開発した機械学習モデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2021-08-27T09:26:20Z) - VolcanoML: Speeding up End-to-End AutoML via Scalable Search Space
Decomposition [57.06900573003609]
VolcanoMLは、大規模なAutoML検索スペースを小さなものに分解するフレームワークである。
最新のデータベースシステムでサポートされているような、Volcanoスタイルの実行モデルをサポートしている。
評価の結果,VolcanoMLは,AutoMLにおける検索空間分解の表現性を向上するだけでなく,分解戦略の実際の発見につながることが示された。
論文 参考訳(メタデータ) (2021-07-19T13:23:57Z) - Interpret-able feedback for AutoML systems [5.5524559605452595]
自動機械学習(AutoML)システムは、非ML専門家のための機械学習(ML)モデルのトレーニングを可能にすることを目的としている。
これらのシステムの欠点は、高い精度でモデルの生成に失敗した場合、モデルを改善するためのパスがないことである。
AutoML用の解釈可能なデータフィードバックソリューションを紹介します。
論文 参考訳(メタデータ) (2021-02-22T18:54:26Z) - Evolution of Scikit-Learn Pipelines with Dynamic Structured Grammatical
Evolution [1.5224436211478214]
本稿では、動的構造文法進化(DSGE)をScikit-Learn分類パイプラインの進化に適応させる新しい文法ベースのフレームワークについて述べる。
実験結果は、AutoML-DSGEを他の文法ベースのAutoMLフレームワークであるResilient ClassificationPipeline Evolution (RECIPE)と比較することを含む。
論文 参考訳(メタデータ) (2020-04-01T09:31:34Z) - AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data [120.2298620652828]
オープンソースのAutoMLフレームワークであるAutoGluon-Tabularを紹介します。
KaggleとOpenML AutoML Benchmarkの50の分類および回帰タスクからなるスイートのテストによると、AutoGluonはより速く、より堅牢で、はるかに正確である。
論文 参考訳(メタデータ) (2020-03-13T23:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。