論文の概要: Privileged Zero-Shot AutoML
- arxiv url: http://arxiv.org/abs/2106.13743v1
- Date: Fri, 25 Jun 2021 16:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 15:03:15.952672
- Title: Privileged Zero-Shot AutoML
- Title(参考訳): Privileged Zero-Shot AutoML
- Authors: Nikhil Singh, Brandon Kates, Jeff Mentch, Anant Kharkar, Madeleine
Udell, Iddo Drori
- Abstract要約: この作業は、データセットと関数記述を使用することで、自動機械学習(AutoML)システムの品質を改善する。
ゼロショットのAutoMLは、実行時間と予測時間を数分からミリ秒に短縮する。
- 参考スコア(独自算出の注目度): 16.386335031156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work improves the quality of automated machine learning (AutoML) systems
by using dataset and function descriptions while significantly decreasing
computation time from minutes to milliseconds by using a zero-shot approach.
Given a new dataset and a well-defined machine learning task, humans begin by
reading a description of the dataset and documentation for the algorithms to be
used. This work is the first to use these textual descriptions, which we call
privileged information, for AutoML. We use a pre-trained Transformer model to
process the privileged text and demonstrate that using this information
improves AutoML performance. Thus, our approach leverages the progress of
unsupervised representation learning in natural language processing to provide
a significant boost to AutoML. We demonstrate that using only textual
descriptions of the data and functions achieves reasonable classification
performance, and adding textual descriptions to data meta-features improves
classification across tabular datasets. To achieve zero-shot AutoML we train a
graph neural network with these description embeddings and the data
meta-features. Each node represents a training dataset, which we use to predict
the best machine learning pipeline for a new test dataset in a zero-shot
fashion. Our zero-shot approach rapidly predicts a high-quality pipeline for a
supervised learning task and dataset. In contrast, most AutoML systems require
tens or hundreds of pipeline evaluations. We show that zero-shot AutoML reduces
running and prediction times from minutes to milliseconds, consistently across
datasets. By speeding up AutoML by orders of magnitude this work demonstrates
real-time AutoML.
- Abstract(参考訳): この研究は、データセットと関数記述を用いて自動機械学習(AutoML)システムの品質を改善し、ゼロショットアプローチを用いて計算時間を数分からミリ秒に大幅に短縮する。
新しいデータセットと明確に定義された機械学習タスクが与えられたとき、人間はデータセットの説明と使用するアルゴリズムのドキュメンテーションを読むことから始める。
この作業は、AutoMLで特権情報と呼ばれるこれらのテキスト記述を使った最初のものです。
トレーニング済みのTransformerモデルを使用して、特権テキストを処理し、この情報を使うことでAutoMLのパフォーマンスが向上することを示す。
このように、自然言語処理における教師なし表現学習の進歩を活用し、AutoMLを大幅に向上させる。
データと関数のテキスト記述のみを使用することで、合理的な分類性能が得られ、データメタ機能にテキスト記述を追加することで、表型データセット全体の分類が向上することを示す。
ゼロショットAutoMLを達成するために、これらの記述埋め込みとデータメタ機能を使ってグラフニューラルネットワークをトレーニングする。
各ノードはトレーニングデータセットを表しており、ゼロショット形式で新しいテストデータセットの最高の機械学習パイプラインを予測するために使用します。
私たちのゼロショットアプローチは、教師付き学習タスクとデータセットのための高品質なパイプラインを迅速に予測します。
対照的に、ほとんどのAutoMLシステムは、数十から数百のパイプライン評価を必要とする。
ゼロショットのAutoMLは、実行時間と予測時間を数分からミリ秒に短縮する。
AutoMLを桁違いにスピードアップすることで、この作業はリアルタイムのAutoMLを示す。
関連論文リスト
- AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - SubStrat: A Subset-Based Strategy for Faster AutoML [5.833272638548153]
SubStratは、設定スペースではなく、データサイズに取り組むAutoML最適化戦略である。
既存のAutoMLツールをラップし、データセット全体を直接実行する代わりに、SubStratは遺伝的アルゴリズムを使用して小さなサブセットを見つける。
その後、小さなサブセットにAutoMLツールを使用し、最後に、大きなデータセット上で制限された、はるかに短いAutoMLプロセスを実行することで、結果のパイプラインを洗練する。
論文 参考訳(メタデータ) (2022-06-07T07:44:06Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - AutoFlow: Learning a Better Training Set for Optical Flow [62.40293188964933]
AutoFlowは、光学フローのトレーニングデータをレンダリングする手法である。
AutoFlowはPWC-NetとRAFTの両方の事前トレーニングにおいて最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-04-29T17:55:23Z) - Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning [45.643809726832764]
第2回ChaLearn AutoMLチャレンジへの勝利を動機とした新しいAutoMLアプローチを紹介します。
我々はPoSH Auto-Sklearnを開発した。これは、厳格な時間制限下で、AutoMLシステムが大きなデータセットでうまく機能することを可能にする。
また、真にハンズフリーなAutoMLに対する解決策を提案する。
論文 参考訳(メタデータ) (2020-07-08T12:41:03Z) - DriveML: An R Package for Driverless Machine Learning [7.004573941239386]
DriveMLは、自動機械学習パイプラインのいくつかの柱の実装を支援する。
DriveMLの主な利点は、開発時間の節約、開発者のエラー低減、マシンラーニングモデルとエラーの最適チューニングである。
論文 参考訳(メタデータ) (2020-05-01T16:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。