論文の概要: SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions
- arxiv url: http://arxiv.org/abs/2202.10451v1
- Date: Fri, 18 Feb 2022 20:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 15:47:56.954921
- Title: SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions
- Title(参考訳): SapientML: 人文学習による機械学習パイプラインの合成
- Authors: Ripon K. Saha, Akira Ura, Sonal Mahajan, Chenguang Zhu, Linyi Li, Yang
Hu, Hiroaki Yoshida, Sarfraz Khurshid, Mukul R. Prasad
- Abstract要約: 既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
- 参考スコア(独自算出の注目度): 28.718446733713183
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic machine learning, or AutoML, holds the promise of truly
democratizing the use of machine learning (ML), by substantially automating the
work of data scientists. However, the huge combinatorial search space of
candidate pipelines means that current AutoML techniques, generate sub-optimal
pipelines, or none at all, especially on large, complex datasets. In this work
we propose an AutoML technique SapientML, that can learn from a corpus of
existing datasets and their human-written pipelines, and efficiently generate a
high-quality pipeline for a predictive task on a new dataset. To combat the
search space explosion of AutoML, SapientML employs a novel divide-and-conquer
strategy realized as a three-stage program synthesis approach, that reasons on
successively smaller search spaces. The first stage uses a machine-learned
model to predict a set of plausible ML components to constitute a pipeline. In
the second stage, this is then refined into a small pool of viable concrete
pipelines using syntactic constraints derived from the corpus and the
machine-learned model. Dynamically evaluating these few pipelines, in the third
stage, provides the best solution. We instantiate SapientML as part of a fully
automated tool-chain that creates a cleaned, labeled learning corpus by mining
Kaggle, learns from it, and uses the learned models to then synthesize
pipelines for new predictive tasks. We have created a training corpus of 1094
pipelines spanning 170 datasets, and evaluated SapientML on a set of 41
benchmark datasets, including 10 new, large, real-world datasets from Kaggle,
and against 3 state-of-the-art AutoML tools and 2 baselines. Our evaluation
shows that SapientML produces the best or comparable accuracy on 27 of the
benchmarks while the second best tool fails to even produce a pipeline on 9 of
the instances.
- Abstract(参考訳): 自動機械学習(AutoML)は、データサイエンティストの作業を実質的に自動化することで、機械学習(ML)の使用を真に民主化する、という約束を掲げている。
しかし、候補パイプラインの巨大な組合せ検索空間は、現在のautoml技術が、特に大規模で複雑なデータセットにおいて、最適でないパイプラインを生成することを意味する。
本研究では,既存のデータセットとその人書きパイプラインのコーパスから学習し,新しいデータセット上で予測タスクのための高品質なパイプラインを効率的に生成する,AutoML技術であるSapientMLを提案する。
automlの探索空間の爆発に対処するために、sappientmlは3段階のプログラム合成アプローチとして実現される新しい分割・探索戦略を採用しており、その理由はより小さな探索空間である。
第1ステージでは、マシン学習モデルを使用して、パイプラインを構成するための可塑性MLコンポーネントセットを予測する。
第二段階では、コーパスと機械学習モデルから導かれる構文制約を用いて、実行可能なコンクリートパイプラインの小さなプールに精製する。
これら少数のパイプラインを動的に評価する上で,第3段階では,最適なソリューションを提供する。
完全に自動化されたツールチェーンの一部としてSapientMLをインスタンス化し、Kaggleをマイニングしてラベル付き学習コーパスを生成し、そこから学習し、学習モデルを使用して、新たな予測タスクのためのパイプラインを合成します。
私たちは、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、kaggleの10の新しい、大規模、実世界のデータセット、最先端のautomlツールと2つのベースラインを含む、41のベンチマークデータセットでsapientmlを評価しました。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
関連論文リスト
- AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - SubStrat: A Subset-Based Strategy for Faster AutoML [5.833272638548153]
SubStratは、設定スペースではなく、データサイズに取り組むAutoML最適化戦略である。
既存のAutoMLツールをラップし、データセット全体を直接実行する代わりに、SubStratは遺伝的アルゴリズムを使用して小さなサブセットを見つける。
その後、小さなサブセットにAutoMLツールを使用し、最後に、大きなデータセット上で制限された、はるかに短いAutoMLプロセスを実行することで、結果のパイプラインを洗練する。
論文 参考訳(メタデータ) (2022-06-07T07:44:06Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - VolcanoML: Speeding up End-to-End AutoML via Scalable Search Space
Decomposition [57.06900573003609]
VolcanoMLは、大規模なAutoML検索スペースを小さなものに分解するフレームワークである。
最新のデータベースシステムでサポートされているような、Volcanoスタイルの実行モデルをサポートしている。
評価の結果,VolcanoMLは,AutoMLにおける検索空間分解の表現性を向上するだけでなく,分解戦略の実際の発見につながることが示された。
論文 参考訳(メタデータ) (2021-07-19T13:23:57Z) - Incremental Search Space Construction for Machine Learning Pipeline
Synthesis [4.060731229044571]
automated machine learning(automl)は、マシンラーニング(ml)パイプラインの自動構築を目的とする。
パイプライン構築のためのメタ機能に基づくデータ中心アプローチを提案する。
確立されたAutoMLベンチマークで使用した28データセットに対して,アプローチの有効性と競争性を実証する。
論文 参考訳(メタデータ) (2021-01-26T17:17:49Z) - Evolution of Scikit-Learn Pipelines with Dynamic Structured Grammatical
Evolution [1.5224436211478214]
本稿では、動的構造文法進化(DSGE)をScikit-Learn分類パイプラインの進化に適応させる新しい文法ベースのフレームワークについて述べる。
実験結果は、AutoML-DSGEを他の文法ベースのAutoMLフレームワークであるResilient ClassificationPipeline Evolution (RECIPE)と比較することを含む。
論文 参考訳(メタデータ) (2020-04-01T09:31:34Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。