論文の概要: Amazon SageMaker Autopilot: a white box AutoML solution at scale
- arxiv url: http://arxiv.org/abs/2012.08483v2
- Date: Wed, 16 Dec 2020 18:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:16:30.331592
- Title: Amazon SageMaker Autopilot: a white box AutoML solution at scale
- Title(参考訳): Amazon SageMaker Autopilot: 大規模にホワイトボックスのAutoMLソリューション
- Authors: Piali Das, Valerio Perrone, Nikita Ivkin, Tanya Bansal, Zohar Karnin,
Huibin Shen, Iaroslav Shcherbatyi, Yotam Elor, Wilton Wu, Aida Zolic, Thibaut
Lienart, Alex Tang, Amr Ahmed, Jean Baptiste Faddoul, Rodolphe Jenatton, Fela
Winkelmolen, Philip Gautier, Leo Dirac, Andre Perunicic, Miroslav
Miladinovic, Giovanni Zappella, C\'edric Archambeau, Matthias Seeger, Bhaskar
Dutt, Laurence Rouesnel
- Abstract要約: 自動機械学習ソリューションを提供するフルマネージドシステムであるAmazon SageMaker Autopilotを紹介します。
Autopilotは問題タイプを特定し、データを解析し、さまざまな完全なMLパイプラインを生成する。
パフォーマンスが不十分なシナリオでは、データサイエンティストが提案されたMLパイプラインを閲覧し、編集することができる。
- 参考スコア(独自算出の注目度): 16.607423930188734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AutoML systems provide a black-box solution to machine learning problems by
selecting the right way of processing features, choosing an algorithm and
tuning the hyperparameters of the entire pipeline. Although these systems
perform well on many datasets, there is still a non-negligible number of
datasets for which the one-shot solution produced by each particular system
would provide sub-par performance. In this paper, we present Amazon SageMaker
Autopilot: a fully managed system providing an automated ML solution that can
be modified when needed. Given a tabular dataset and the target column name,
Autopilot identifies the problem type, analyzes the data and produces a diverse
set of complete ML pipelines including feature preprocessing and ML algorithms,
which are tuned to generate a leaderboard of candidate models. In the scenario
where the performance is not satisfactory, a data scientist is able to view and
edit the proposed ML pipelines in order to infuse their expertise and business
knowledge without having to revert to a fully manual solution. This paper
describes the different components of Autopilot, emphasizing the infrastructure
choices that allow scalability, high quality models, editable ML pipelines,
consumption of artifacts of offline meta-learning, and a convenient integration
with the entire SageMaker suite allowing these trained models to be used in a
production setting.
- Abstract(参考訳): AutoMLシステムは、フィーチャーの正しい処理方法を選択し、アルゴリズムを選択し、パイプライン全体のハイパーパラメータをチューニングすることで、機械学習問題に対するブラックボックスソリューションを提供する。
これらのシステムは、多くのデータセットでうまく機能するが、それでも、個々のシステムが生成するワンショットソリューションがサブパリティパフォーマンスを提供するような、不要な数のデータセットが存在する。
本稿では,自動MLソリューションを提供するフルマネージドシステムであるAmazon SageMaker Autopilotについて述べる。
表形式でのデータセットとターゲット列の名前が与えられたとき、Autopilotは問題タイプを特定し、データを解析し、特徴前処理やMLアルゴリズムを含むさまざまな完全なMLパイプラインを生成し、候補モデルのリーダーボードを生成するように調整する。
パフォーマンスが不十分なシナリオでは、データサイエンティストは、提案されたMLパイプラインを閲覧し、編集して、完全に手動のソリューションに戻ることなく、専門知識とビジネス知識を注入することができる。
本稿では、autopilotのさまざまなコンポーネントについて説明し、スケーラビリティ、高品質モデル、編集可能なmlパイプライン、オフラインメタラーニングのアーティファクトの消費、およびこれらのトレーニングされたモデルをプロダクション環境で使用できるsagemakerスイート全体と便利な統合を可能にするインフラストラクチャの選択を強調する。
関連論文リスト
- SubStrat: A Subset-Based Strategy for Faster AutoML [5.833272638548153]
SubStratは、設定スペースではなく、データサイズに取り組むAutoML最適化戦略である。
既存のAutoMLツールをラップし、データセット全体を直接実行する代わりに、SubStratは遺伝的アルゴリズムを使用して小さなサブセットを見つける。
その後、小さなサブセットにAutoMLツールを使用し、最後に、大きなデータセット上で制限された、はるかに短いAutoMLプロセスを実行することで、結果のパイプラインを洗練する。
論文 参考訳(メタデータ) (2022-06-07T07:44:06Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z) - Winning solutions and post-challenge analyses of the ChaLearn AutoDL
challenge 2019 [112.36155380260655]
本稿では,ChaLearnのAutoDLチャレンジシリーズの結果と今後の課題について述べる。
その結果,一般的なニューラルネットワーク探索(NAS)は実用的ではなかったものの,DL手法が支配的であったことが示唆された。
メタラーナー"、"データインジェクタ"、"モデルセレクタ"、"モデル/ラーナー"、"評価器"を特徴とする、ハイレベルなモジュール化組織が登場した。
論文 参考訳(メタデータ) (2022-01-11T06:21:18Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Towards Green Automated Machine Learning: Status Quo and Future
Directions [55.41644538483948]
AutoMLは数百のコントリビューションでホットな研究トピックになっている。
非常に資源集約的であることも知られており、批判の要点の1つである。
本稿では,この問題に対するAutoML研究者の意識を高め,治療の可能性について詳しく述べる。
論文 参考訳(メタデータ) (2021-11-10T18:57:27Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - A Scalable AutoML Approach Based on Graph Neural Networks [4.723269144709768]
KGpipはAutoMLシステムのサブコンポーネントとして設計されている。
KGpipを2つのAutoMLシステムに統合することで、この能力を実証し、既存の最先端システムの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-29T20:55:13Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - LightAutoML: AutoML Solution for a Large Financial Services Ecosystem [108.09104876115428]
本稿では、ヨーロッパ大手金融サービス会社向けに開発されたLightAutoMLと呼ばれるAutoMLシステムについて述べる。
当社のフレームワークは、多数のアプリケーションに試験的にデプロイされ、経験豊富なデータサイエンティストのレベルで実行されました。
論文 参考訳(メタデータ) (2021-09-03T13:52:32Z) - VolcanoML: Speeding up End-to-End AutoML via Scalable Search Space
Decomposition [57.06900573003609]
VolcanoMLは、大規模なAutoML検索スペースを小さなものに分解するフレームワークである。
最新のデータベースシステムでサポートされているような、Volcanoスタイルの実行モデルをサポートしている。
評価の結果,VolcanoMLは,AutoMLにおける検索空間分解の表現性を向上するだけでなく,分解戦略の実際の発見につながることが示された。
論文 参考訳(メタデータ) (2021-07-19T13:23:57Z) - Interpret-able feedback for AutoML systems [5.5524559605452595]
自動機械学習(AutoML)システムは、非ML専門家のための機械学習(ML)モデルのトレーニングを可能にすることを目的としている。
これらのシステムの欠点は、高い精度でモデルの生成に失敗した場合、モデルを改善するためのパスがないことである。
AutoML用の解釈可能なデータフィードバックソリューションを紹介します。
論文 参考訳(メタデータ) (2021-02-22T18:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。