論文の概要: Exploring Opportunistic Meta-knowledge to Reduce Search Spaces for
Automated Machine Learning
- arxiv url: http://arxiv.org/abs/2105.00282v1
- Date: Sat, 1 May 2021 15:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 06:22:33.374450
- Title: Exploring Opportunistic Meta-knowledge to Reduce Search Spaces for
Automated Machine Learning
- Title(参考訳): 機械学習のための検索スペース削減のための機会論的メタ知識の探索
- Authors: Tien-Dung Nguyen, David Jacob Kedziora, Katarzyna Musial, Bogdan
Gabrys
- Abstract要約: 本稿では,従来の経験から,パイプライン合成/最適化プロセスを開始する前に,利用可能な分類器/回帰器のプールを事前に計算できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 8.325359814939517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) pipeline composition and optimisation have been studied
to seek multi-stage ML models, i.e. preprocessor-inclusive, that are both valid
and well-performing. These processes typically require the design and traversal
of complex configuration spaces consisting of not just individual ML components
and their hyperparameters, but also higher-level pipeline structures that link
these components together. Optimisation efficiency and resulting ML-model
accuracy both suffer if this pipeline search space is unwieldy and excessively
large; it becomes an appealing notion to avoid costly evaluations of poorly
performing ML components ahead of time. Accordingly, this paper investigates
whether, based on previous experience, a pool of available
classifiers/regressors can be preemptively culled ahead of initiating a
pipeline composition/optimisation process for a new ML problem, i.e. dataset.
The previous experience comes in the form of classifier/regressor accuracy
rankings derived, with loose assumptions, from a substantial but non-exhaustive
number of pipeline evaluations; this meta-knowledge is considered
'opportunistic'. Numerous experiments with the AutoWeka4MCPS package, including
ones leveraging similarities between datasets via the relative landmarking
method, show that, despite its seeming unreliability, opportunistic
meta-knowledge can improve ML outcomes. However, results also indicate that the
culling of classifiers/regressors should not be too severe either. In effect,
it is better to search through a 'top tier' of recommended predictors than to
pin hopes onto one previously supreme performer.
- Abstract(参考訳): 機械学習(ML)パイプラインの構成と最適化は、多段階MLモデル、すなわち、探索するために研究されている。
Preprocessor-inclusiveは、有効かつ良好なパフォーマンスを持つ。
これらのプロセスは通常、個々のmlコンポーネントとそのハイパーパラメータだけでなく、これらのコンポーネントを結合する高レベルのパイプライン構造で構成される複雑な構成空間の設計と横断を必要とする。
最適化効率と結果のMLモデル精度は、パイプライン探索空間が不安定で過度に大きい場合にも問題となる。
そこで本研究では,従来の経験から,パイプライン合成/最適化プロセスを開始する前に,利用可能な分類器/回帰器のプールを事前に計算できるかどうかを検討する。
データセット。
以前の経験は、ゆるい仮定のもとに、パイプライン評価の実質的かつ非排他的な数から派生した分類/回帰的精度ランキングという形で行われており、このメタ知識は「親和的」と見なされている。
AutoWeka4MCPSパッケージによる多数の実験は、相対的なランドマーク法を通じてデータセット間の類似性を活用することを含み、信頼性の低いように見えるにもかかわらず、機会論的メタ知識がMLの結果を改善することを示している。
しかし、その結果、分類器/回帰器のカリングもそれほど厳しいものではないことが示唆された。
実際には、以前最高のパフォーマーに期待を向けるよりも、推奨予測者の'トップティア'を検索した方がよい。
関連論文リスト
- Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Improved Diversity-Promoting Collaborative Metric Learning for Recommendation [127.08043409083687]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:44:48Z) - TrackFormers: In Search of Transformer-Based Particle Tracking for the High-Luminosity LHC Era [2.9052912091435923]
高エネルギー物理実験は、新しいイテレーション毎に複数倍のデータの増加に直面している。
このようなオーバーホールが必要なステップの1つは、粒子トラックの再構築、すなわち追跡のタスクである。
機械学習支援ソリューションは、大幅な改善が期待されている。
論文 参考訳(メタデータ) (2024-07-09T18:47:25Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - On Taking Advantage of Opportunistic Meta-knowledge to Reduce
Configuration Spaces for Automated Machine Learning [11.670797168818773]
主要な研究課題は、パフォーマンスの悪いMLパイプラインのコスト評価を事前に回避できるかどうかである。
AutoWeka4MCPSパッケージによる多くの実験は、オポチュニティ/システムメタ知識がMLの結果を改善することを示唆している。
我々は、データセットの「チャレンジ」に対する強い感度、すなわち、予測子の選択における特異性によってパフォーマンスが著しく向上するかどうかを観察する。
論文 参考訳(メタデータ) (2022-08-08T19:22:24Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - Adaptive neighborhood Metric learning [184.95321334661898]
適応的近傍距離距離学習(ANML)という新しい距離距離距離距離距離距離学習アルゴリズムを提案する。
ANMLは線形埋め込みと深層埋め込みの両方を学ぶのに使うことができる。
本手法で提案するemphlog-exp平均関数は,深層学習手法をレビューするための新たな視点を与える。
論文 参考訳(メタデータ) (2022-01-20T17:26:37Z) - A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments [2.9726886415710276]
バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
論文 参考訳(メタデータ) (2020-08-28T19:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。