論文の概要: AutoWeka4MCPS-AVATAR: Accelerating Automated Machine Learning Pipeline
Composition and Optimisation
- arxiv url: http://arxiv.org/abs/2011.11846v1
- Date: Sat, 21 Nov 2020 14:05:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:42:59.620858
- Title: AutoWeka4MCPS-AVATAR: Accelerating Automated Machine Learning Pipeline
Composition and Optimisation
- Title(参考訳): AutoWeka4MCPS-AVATAR: 機械学習パイプラインの構成と最適化の高速化
- Authors: Tien-Dung Nguyen, Bogdan Gabrys and Katarzyna Musial
- Abstract要約: 本稿では,サロゲートモデル(AVATAR)を用いて,実行せずにMLパイプラインの有効性を評価する手法を提案する。
AVATARは、データセットの特徴に対するMLアルゴリズムの機能と効果を自動的に学習することで、知識ベースを生成する。
AVATARはその妥当性を評価するためにオリジナルのMLパイプラインを実行する代わりに、MLパイプラインコンポーネントの機能と効果によって構築されたサロゲートモデルを評価する。
- 参考スコア(独自算出の注目度): 13.116806430326513
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated machine learning pipeline (ML) composition and optimisation aim at
automating the process of finding the most promising ML pipelines within
allocated resources (i.e., time, CPU and memory). Existing methods, such as
Bayesian-based and genetic-based optimisation, which are implemented in
Auto-Weka, Auto-sklearn and TPOT, evaluate pipelines by executing them.
Therefore, the pipeline composition and optimisation of these methods
frequently require a tremendous amount of time that prevents them from
exploring complex pipelines to find better predictive models. To further
explore this research challenge, we have conducted experiments showing that
many of the generated pipelines are invalid in the first place, and attempting
to execute them is a waste of time and resources. To address this issue, we
propose a novel method to evaluate the validity of ML pipelines, without their
execution, using a surrogate model (AVATAR). The AVATAR generates a knowledge
base by automatically learning the capabilities and effects of ML algorithms on
datasets' characteristics. This knowledge base is used for a simplified mapping
from an original ML pipeline to a surrogate model which is a Petri net based
pipeline. Instead of executing the original ML pipeline to evaluate its
validity, the AVATAR evaluates its surrogate model constructed by capabilities
and effects of the ML pipeline components and input/output simplified mappings.
Evaluating this surrogate model is less resource-intensive than the execution
of the original pipeline. As a result, the AVATAR enables the pipeline
composition and optimisation methods to evaluate more pipelines by quickly
rejecting invalid pipelines. We integrate the AVATAR into the sequential
model-based algorithm configuration (SMAC). Our experiments show that when SMAC
employs AVATAR, it finds better solutions than on its own.
- Abstract(参考訳): 自動機械学習パイプライン(ML)合成と最適化は、割り当てられたリソース(時間、CPU、メモリなど)の中で最も有望なMLパイプラインを見つけるプロセスを自動化することを目的としている。
Auto-Weka、Auto-Sklearn、TPOTで実装されたベイジアンベースおよび遺伝的ベース最適化のような既存の手法は、パイプラインの実行によってパイプラインを評価する。
したがって、これらのメソッドのパイプライン構成と最適化には、より優れた予測モデルを見つけるために複雑なパイプラインを探索することを妨げる膨大な時間を要する。
この研究課題をさらに探究するため,我々は,生成したパイプラインの多くがそもそも無効であり,実行しようとするのは時間とリソースの無駄であることを示す実験を行った。
この問題に対処するために,サロゲートモデル(AVATAR)を用いて,実行せずにMLパイプラインの有効性を評価する新しい手法を提案する。
AVATARは、データセットの特徴に対するMLアルゴリズムの機能と効果を自動的に学習することで、知識ベースを生成する。
この知識ベースは、オリジナルのMLパイプラインからペトリネットベースのパイプラインである代理モデルへの単純化されたマッピングに使用される。
AVATARはその妥当性を評価するためにオリジナルのMLパイプラインを実行する代わりに、MLパイプラインコンポーネントと入出力単純化されたマッピングの能力と効果によって構築されたサロゲートモデルを評価する。
このサロゲートモデルの評価は、元のパイプラインの実行よりもリソース集約性が低い。
その結果、アバターは、無効なパイプラインを迅速に拒否することで、パイプラインの構成と最適化方法をより多くのパイプラインを評価することができる。
AVATARを逐次モデルベースアルゴリズム構成(SMAC)に統合する。
我々の実験は、SMACがAVATARを採用すると、それ自身よりも優れた解が見つかることを示している。
関連論文リスト
- AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Automated Evolutionary Approach for the Design of Composite Machine
Learning Pipelines [48.7576911714538]
提案手法は、複合機械学習パイプラインの設計を自動化することを目的としている。
パイプラインをカスタマイズ可能なグラフベースの構造で設計し、得られた結果を分析して再生する。
このアプローチのソフトウェア実装は、オープンソースフレームワークとして紹介されている。
論文 参考訳(メタデータ) (2021-06-26T23:19:06Z) - PipeTransformer: Automated Elastic Pipelining for Distributed Training
of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。
トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。
GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文 参考訳(メタデータ) (2021-02-05T13:39:31Z) - A DICOM Framework for Machine Learning Pipelines against Real-Time
Radiology Images [50.222197963803644]
Nifflerは、研究クラスタでの機械学習パイプラインの実行を可能にする統合フレームワークである。
ニフラーはDigital Imaging and Communications in Medicine (DICOM)プロトコルを使用して画像データの取得と保存を行っている。
我々は,そのアーキテクチャと3つのユースケースを提示する: リアルタイムに画像から下大静脈フィルターを検出すること,スキャナ利用の同定,およびスキャナクロックの校正。
論文 参考訳(メタデータ) (2020-04-16T21:06:49Z) - AVATAR -- Machine Learning Pipeline Evaluation Using Surrogate Model [10.83607599315401]
本稿では,サロゲートモデル(AVATAR)を用いたMLパイプラインの有効性評価手法を提案する。
実験の結果, AVATARは, 従来の評価手法と比較して, 複雑なパイプラインの評価においてより効率的であることがわかった。
論文 参考訳(メタデータ) (2020-01-30T02:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。