論文の概要: On Taking Advantage of Opportunistic Meta-knowledge to Reduce
Configuration Spaces for Automated Machine Learning
- arxiv url: http://arxiv.org/abs/2208.04376v1
- Date: Mon, 8 Aug 2022 19:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:50:57.071677
- Title: On Taking Advantage of Opportunistic Meta-knowledge to Reduce
Configuration Spaces for Automated Machine Learning
- Title(参考訳): 自動機械学習におけるオポチュニティメタ知識の活用による構成空間の削減
- Authors: David Jacob Kedziora, Tien-Dung Nguyen, Katarzyna Musial, Bogdan
Gabrys
- Abstract要約: 主要な研究課題は、パフォーマンスの悪いMLパイプラインのコスト評価を事前に回避できるかどうかである。
AutoWeka4MCPSパッケージによる多くの実験は、オポチュニティ/システムメタ知識がMLの結果を改善することを示唆している。
我々は、データセットの「チャレンジ」に対する強い感度、すなわち、予測子の選択における特異性によってパフォーマンスが著しく向上するかどうかを観察する。
- 参考スコア(独自算出の注目度): 11.670797168818773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automated machine learning (AutoML) process can require searching through
complex configuration spaces of not only machine learning (ML) components and
their hyperparameters but also ways of composing them together, i.e. forming ML
pipelines. Optimisation efficiency and the model accuracy attainable for a
fixed time budget suffer if this pipeline configuration space is excessively
large. A key research question is whether it is both possible and practical to
preemptively avoid costly evaluations of poorly performing ML pipelines by
leveraging their historical performance for various ML tasks, i.e.
meta-knowledge. The previous experience comes in the form of
classifier/regressor accuracy rankings derived from either (1) a substantial
but non-exhaustive number of pipeline evaluations made during historical AutoML
runs, i.e. 'opportunistic' meta-knowledge, or (2) comprehensive cross-validated
evaluations of classifiers/regressors with default hyperparameters, i.e.
'systematic' meta-knowledge. Numerous experiments with the AutoWeka4MCPS
package suggest that (1) opportunistic/systematic meta-knowledge can improve ML
outcomes, typically in line with how relevant that meta-knowledge is, and (2)
configuration-space culling is optimal when it is neither too conservative nor
too radical. However, the utility and impact of meta-knowledge depend
critically on numerous facets of its generation and exploitation, warranting
extensive analysis; these are often overlooked/underappreciated within AutoML
and meta-learning literature. In particular, we observe strong sensitivity to
the `challenge' of a dataset, i.e. whether specificity in choosing a predictor
leads to significantly better performance. Ultimately, identifying `difficult'
datasets, thus defined, is crucial to both generating informative
meta-knowledge bases and understanding optimal search-space reduction
strategies.
- Abstract(参考訳): 自動機械学習(AutoML)プロセスは、機械学習(ML)コンポーネントとそのハイパーパラメータの複雑な構成空間を探索するだけでなく、MLパイプラインを形成するためにそれらを組み立てる方法も必要である。
このパイプライン構成空間が過度に大きくなると、最適化効率と固定時間予算で達成可能なモデルの精度が損なわれる。
重要な研究課題は、様々なMLタスク、すなわちメタ知識にその過去のパフォーマンスを活用することで、パフォーマンスの悪いMLパイプラインのコスト評価を事前に回避できるかどうかである。
以前の経験は、(1)歴史的なAutoML実行中に行われたパイプライン評価の実質的かつ非実行的な数、すなわち'opportunistic'メタ知識、または(2)デフォルトのハイパーパラメータを持つ分類器/回帰器の総合的クロスバリデーション評価、すなわち'systematic'メタ知識から派生した分類器/回帰器の精度ランキングの形式である。
AutoWeka4MCPSパッケージによる多くの実験により、(1)オポチュニティ/システムメタ知識は、一般的にメタ知識の関連性に応じてML結果を改善することができ、(2)構成空間カリングは、保守的でも過激的でもない場合に最適であることが示唆された。
しかし、メタ知識の有用性と影響は、その生成と活用の多くの側面に批判的に依存しており、広範囲な分析を保証している。
特に、データセットの ‘challenge' に対する強い感度、すなわち予測器の選択における特異性がパフォーマンスを著しく向上させるかどうかを観察する。
最終的に、定義されている 'difficult' データセットの識別は、情報的メタ知識ベースの生成と最適な検索空間削減戦略の理解の両方に不可欠である。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - STREAMLINE: A Simple, Transparent, End-To-End Automated Machine Learning
Pipeline Facilitating Data Analysis and Algorithm Comparison [0.49034553215430216]
STREAMLINEはシンプルで透明でエンドツーエンドのAutoMLパイプラインである。
データセット、MLアルゴリズム、その他のAutoMLツールのパフォーマンスを比較するように設計されている。
論文 参考訳(メタデータ) (2022-06-23T22:40:58Z) - Exploring Opportunistic Meta-knowledge to Reduce Search Spaces for
Automated Machine Learning [8.325359814939517]
本稿では,従来の経験から,パイプライン合成/最適化プロセスを開始する前に,利用可能な分類器/回帰器のプールを事前に計算できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-05-01T15:25:30Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments [2.9726886415710276]
バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
論文 参考訳(メタデータ) (2020-08-28T19:58:05Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。