論文の概要: Assembled-OpenML: Creating Efficient Benchmarks for Ensembles in AutoML
with OpenML
- arxiv url: http://arxiv.org/abs/2307.00285v1
- Date: Sat, 1 Jul 2023 09:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:05:21.006205
- Title: Assembled-OpenML: Creating Efficient Benchmarks for Ensembles in AutoML
with OpenML
- Title(参考訳): Assembled-OpenML: OpenMLによるAutoMLのアンサンブルのための効率的なベンチマーク作成
- Authors: Lennart Purucker, Joeran Beel
- Abstract要約: OpenMLを用いたアンサンブルのためのメタデータセット構築ツールであるAssembled-OpenMLを紹介した。
本稿では,Assembled-OpenMLを用いたアンサンブル手法の比較例を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Machine Learning (AutoML) frameworks regularly use ensembles.
Developers need to compare different ensemble techniques to select appropriate
techniques for an AutoML framework from the many potential techniques. So far,
the comparison of ensemble techniques is often computationally expensive,
because many base models must be trained and evaluated one or multiple times.
Therefore, we present Assembled-OpenML. Assembled-OpenML is a Python tool,
which builds meta-datasets for ensembles using OpenML. A meta-dataset, called
Metatask, consists of the data of an OpenML task, the task's dataset, and
prediction data from model evaluations for the task. We can make the comparison
of ensemble techniques computationally cheaper by using the predictions stored
in a metatask instead of training and evaluating base models. To introduce
Assembled-OpenML, we describe the first version of our tool. Moreover, we
present an example of using Assembled-OpenML to compare a set of ensemble
techniques. For this example comparison, we built a benchmark using
Assembled-OpenML and implemented ensemble techniques expecting predictions
instead of base models as input. In our example comparison, we gathered the
prediction data of $1523$ base models for $31$ datasets. Obtaining the
prediction data for all base models using Assembled-OpenML took ${\sim} 1$ hour
in total. In comparison, obtaining the prediction data by training and
evaluating just one base model on the most computationally expensive dataset
took ${\sim} 37$ minutes.
- Abstract(参考訳): 自動機械学習(AutoML)フレームワークは定期的にアンサンブルを使用する。
開発者はさまざまなアンサンブルテクニックを比較して、多くの潜在的なテクニックからAutoMLフレームワークの適切なテクニックを選択する必要がある。
これまでのところ、アンサンブル手法の比較は計算量的に高価であり、多くのベースモデルは1回または複数回訓練され、評価されなければならない。
そこで我々はAssembled-OpenMLを提案する。
Assembled-OpenMLはPythonツールで、OpenMLを使用してアンサンブルのためのメタデータセットを構築する。
Metataskと呼ばれるメタデータセットは、OpenMLタスクのデータ、タスクのデータセット、タスクのモデル評価からの予測データで構成される。
ベースモデルのトレーニングや評価の代わりにメタタスクに格納された予測を用いて,アンサンブル手法の比較を計算的に安価に行うことができる。
Assembled-OpenMLを導入するために、ツールの最初のバージョンについて説明する。
さらに,Assembled-OpenMLを用いて一連のアンサンブル手法を比較する例を示す。
この例では,Assembled-OpenMLを用いたベンチマークを構築し,入力としてベースモデルの代わりに予測を期待するアンサンブル手法を実装した。
サンプル比較では,11ドルのデータセットを対象とした1523ドルのベースモデルの予測データを収集した。
Assembled-OpenMLを使用して、すべてのベースモデルの予測データを取得するには、合計で1時間かかる。
比較して、最も計算コストのかかるデータセット上で、トレーニングと評価によって予測データを取得するには、${\sim} 37$ minutesが必要だった。
関連論文リスト
- MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - How to Train Your MAML to Excel in Few-Shot Classification [26.51244463209443]
そこで本研究では,MAMLの訓練方法について紹介する。
我々のアプローチはUNICORN-MAMLと呼ばれ、最先端のアルゴリズムに匹敵する、あるいは性能に優れる。
論文 参考訳(メタデータ) (2021-06-30T17:56:15Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - Can AutoML outperform humans? An evaluation on popular OpenML datasets
using AutoML Benchmark [0.05156484100374058]
この記事では、OpenMLから12の人気のあるデータセット上の4つのAutoMLフレームワークを比較します。
その結果、自動化されたフレームワークは、12のOpenMLタスクのうち7つの機械学習コミュニティより優れているか等しいかが分かる。
論文 参考訳(メタデータ) (2020-09-03T10:25:34Z) - AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data [120.2298620652828]
オープンソースのAutoMLフレームワークであるAutoGluon-Tabularを紹介します。
KaggleとOpenML AutoML Benchmarkの50の分類および回帰タスクからなるスイートのテストによると、AutoGluonはより速く、より堅牢で、はるかに正確である。
論文 参考訳(メタデータ) (2020-03-13T23:10:39Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。