論文の概要: EDCA -- An Evolutionary Data-Centric AutoML Framework for Efficient Pipelines
- arxiv url: http://arxiv.org/abs/2503.04350v1
- Date: Thu, 06 Mar 2025 11:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:47.585134
- Title: EDCA -- An Evolutionary Data-Centric AutoML Framework for Efficient Pipelines
- Title(参考訳): EDCA - 効率的なパイプラインのための進化的データ中心のAutoMLフレームワーク
- Authors: Joana Simões, João Correia,
- Abstract要約: この作業では、Evolutionary Data Centric AutoMLフレームワークであるEDCAを紹介します。
データ品質は通常、AutoMLの見過ごされている部分であり、手作業と時間を要するタスクであり続けています。
EDCAは、AutoMLベンチマークのトップの2つのフレームワークであるFLAMLとTPOTと比較された。
- 参考スコア(独自算出の注目度): 0.276240219662896
- License:
- Abstract: Automated Machine Learning (AutoML) gained popularity due to the increased demand for Machine Learning (ML) specialists, allowing them to apply ML techniques effortlessly and quickly. AutoML implementations use optimisation methods to identify the most effective ML solution for a given dataset, aiming to improve one or more predefined metrics. However, most implementations focus on model selection and hyperparameter tuning. Despite being an important factor in obtaining high-performance ML systems, data quality is usually an overlooked part of AutoML and continues to be a manual and time-consuming task. This work presents EDCA, an Evolutionary Data Centric AutoML framework. In addition to the traditional tasks such as selecting the best models and hyperparameters, EDCA enhances the given data by optimising data processing tasks such as data reduction and cleaning according to the problems' needs. All these steps create an ML pipeline that is optimised by an evolutionary algorithm. To assess its effectiveness, EDCA was compared to FLAML and TPOT, two frameworks at the top of the AutoML benchmarks. The frameworks were evaluated in the same conditions using datasets from AMLB classification benchmarks. EDCA achieved statistically similar results in performance to FLAML and TPOT but used significantly less data to train the final solutions. Moreover, EDCA experimental results reveal that a good performance can be achieved using less data and efficient ML algorithm aspects that align with Green AutoML guidelines
- Abstract(参考訳): 機械学習(Automated Machine Learning, 自動機械学習)は、機械学習(ML)の専門家の需要が高まり、機械学習のテクニックを積極的に迅速に適用できるようになったことで人気を博した。
AutoMLの実装では、最適化メソッドを使用して、指定されたデータセットの最も効果的なMLソリューションを特定し、ひとつ以上の事前定義されたメトリクスを改善することを目指している。
しかし、ほとんどの実装はモデル選択とハイパーパラメータチューニングに焦点を当てている。
高性能なMLシステムを得る上で重要な要素であるにもかかわらず、データ品質は通常AutoMLの見過ごされている部分であり、手作業と時間を要するタスクであり続けている。
この作業では、Evolutionary Data Centric AutoMLフレームワークであるEDCAを紹介します。
ベストモデルやハイパーパラメータなどの従来のタスクに加えて、EDCAは問題のニーズに応じてデータ削減やクリーニングなどのデータ処理タスクを最適化することで、与えられたデータを強化する。
これらのステップはすべて、進化アルゴリズムによって最適化されたMLパイプラインを生成する。
その有効性を評価するため、EDCAはAutoMLベンチマークのトップの2つのフレームワークであるFLAMLとTPOTと比較された。
フレームワークは、AMLB分類ベンチマークのデータセットを使用して、同じ条件で評価された。
EDCA は FLAML や TPOT と統計的に類似した結果を得たが、最終的なソリューションのトレーニングにはデータ量が大幅に少なかった。
さらに、EDCA実験結果から、グリーンオートMLガイドラインに従って、少ないデータと効率的なMLアルゴリズムの側面を用いて、優れたパフォーマンスを達成できることが判明した。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - AutoEn: An AutoML method based on ensembles of predefined Machine
Learning pipelines for supervised Traffic Forecasting [1.6242924916178283]
交通予測(TF)は、将来の交通状況を予測することで交通渋滞を緩和する能力により、関連性が高まっている。
TFは、モデル選択問題(MSP)として知られる機械学習パラダイムに大きな課題を提起する。
事前に定義されたMLパイプラインの集合からマルチクラス化アンサンブルを自動生成する,シンプルで効率的な手法であるAutoEnを紹介する。
論文 参考訳(メタデータ) (2023-03-19T18:37:18Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Interpret-able feedback for AutoML systems [5.5524559605452595]
自動機械学習(AutoML)システムは、非ML専門家のための機械学習(ML)モデルのトレーニングを可能にすることを目的としている。
これらのシステムの欠点は、高い精度でモデルの生成に失敗した場合、モデルを改善するためのパスがないことである。
AutoML用の解釈可能なデータフィードバックソリューションを紹介します。
論文 参考訳(メタデータ) (2021-02-22T18:54:26Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z) - Adaptation Strategies for Automated Machine Learning on Evolving Data [7.843067454030999]
本研究は,概念ドリフトなどのデータストリーム課題がAutoML手法の性能に及ぼす影響を理解することを目的とする。
本稿では,6つの概念ドリフト適応戦略を提案し,それらの有効性を異なるAutoMLアプローチで評価する。
論文 参考訳(メタデータ) (2020-06-09T14:29:16Z) - Evolution of Scikit-Learn Pipelines with Dynamic Structured Grammatical
Evolution [1.5224436211478214]
本稿では、動的構造文法進化(DSGE)をScikit-Learn分類パイプラインの進化に適応させる新しい文法ベースのフレームワークについて述べる。
実験結果は、AutoML-DSGEを他の文法ベースのAutoMLフレームワークであるResilient ClassificationPipeline Evolution (RECIPE)と比較することを含む。
論文 参考訳(メタデータ) (2020-04-01T09:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。