論文の概要: HAMLET -- A Learning Curve-Enabled Multi-Armed Bandit for Algorithm
Selection
- arxiv url: http://arxiv.org/abs/2001.11261v3
- Date: Thu, 28 May 2020 06:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 11:27:03.811586
- Title: HAMLET -- A Learning Curve-Enabled Multi-Armed Bandit for Algorithm
Selection
- Title(参考訳): アルゴリズム選択のための学習曲線付きマルチArmed Bandit HAMLET
- Authors: Mischa Schmidt, Julia Gastinger, S\'ebastien Nicolas, Anett Sch\"ulke
(NEC Laboratories Europe GmbH)
- Abstract要約: HAMLETを導入し、学習曲線外挿と計算時間認識により帯域幅のアプローチを拡張した。
その結果,HAMLET変数1-3は,他の帯域ベースアルゴリズム選択手法と同等以上の性能を示した。
- 参考スコア(独自算出の注目度): 0.5161531917413706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated algorithm selection and hyperparameter tuning facilitates the
application of machine learning. Traditional multi-armed bandit strategies look
to the history of observed rewards to identify the most promising arms for
optimizing expected total reward in the long run. When considering limited time
budgets and computational resources, this backward view of rewards is
inappropriate as the bandit should look into the future for anticipating the
highest final reward at the end of a specified time budget. This work addresses
that insight by introducing HAMLET, which extends the bandit approach with
learning curve extrapolation and computation time-awareness for selecting among
a set of machine learning algorithms. Results show that the HAMLET Variants 1-3
exhibit equal or better performance than other bandit-based algorithm selection
strategies in experiments with recorded hyperparameter tuning traces for the
majority of considered time budgets. The best performing HAMLET Variant 3
combines learning curve extrapolation with the well-known upper confidence
bound exploration bonus. That variant performs better than all non-HAMLET
policies with statistical significance at the 95% level for 1,485 runs.
- Abstract(参考訳): 自動アルゴリズム選択とハイパーパラメータチューニングは機械学習の適用を容易にする。
伝統的なマルチアームのバンディット戦略は、長期にわたって期待される総報酬を最適化するための最も有望な武器を特定するために観察された報酬の歴史に目を向ける。
限られた時間予算と計算資源を考慮すると、この報酬の後方ビューは不適切である。
この研究は、一連の機械学習アルゴリズムの中から選択するための学習曲線外挿と計算時間認識による帯域幅アプローチを拡張するHAMLETの導入による洞察に対処する。
その結果,HAMLET 変数 1-3 は,時間予算の大部分に対して記録されたハイパーパラメータチューニングトレースを用いた実験において,他の帯域ベースアルゴリズム選択手法と同等以上の性能を示した。
最高のパフォーマンスのHAMLETヴァリアント3は、学習曲線外挿とよく知られた高信頼境界探索ボーナスを組み合わせる。
この変種は、1,485ランの95%レベルで統計的に有意なすべての非HAMLETポリシーよりも優れている。
関連論文リスト
- Meta-Learning from Learning Curves for Budget-Limited Algorithm Selection [11.409496019407067]
予算制限のシナリオでは、アルゴリズム候補を慎重に選択し、それを訓練するための予算を割り当てることが不可欠である。
本稿では,エージェントが十分に訓練されるまで待たずに,最も有望なアルゴリズムを学習する過程において,エージェントが選択しなければならない新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-10T08:09:58Z) - A Bandit Approach with Evolutionary Operators for Model Selection [0.4604003661048266]
この研究は、モデル選択を無限武装のバンディット問題、すなわち意思決定者が無限数の固定された選択のうちの1つを反復的に選択する問題として定式化する。
アームは、モデルの部分的なトレーニングに対応するアームをトレーニングし、選択するための機械学習モデルである(リソース割り当て)。
本稿では,Audiber らによって導入された UCB-E bandit アルゴリズムに,進化的アルゴリズムからの演算子を組み込んだ Mutant-UCB アルゴリズムを提案する。
3つのオープンソース画像分類データセットで実施されたテストは、この新しい組み合わせ手法の妥当性を証明し、状態よりも優れている。
論文 参考訳(メタデータ) (2024-02-07T08:01:45Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Algorithms with Prediction Portfolios [23.703372221079306]
我々は、マッチング、ロードバランシング、非クレアボイラントスケジューリングなど、多くの基本的な問題に対する複数の予測器の使用について検討する。
これらの問題のそれぞれに対して、複数の予測器を利用する新しいアルゴリズムを導入し、その結果のパフォーマンスに限界を証明します。
論文 参考訳(メタデータ) (2022-10-22T12:58:07Z) - Non-Stationary Bandits under Recharging Payoffs: Improved Planning with
Sublinear Regret [34.44347218903429]
マルチアームバンディット設定は、最近非定常状態において研究されている。
各アクションの平均的なペイオフは、前回のプレイ以来のラウンド数の増加しない機能である。
我々は,我々のアルゴリズムがサブ線形後悔を伴う帯域幅アルゴリズムにどのように変換されるかを示す。
論文 参考訳(メタデータ) (2022-05-29T23:55:36Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - Model Selection in Batch Policy Optimization [88.52887493684078]
バッチポリシー最適化におけるモデル選択の問題について検討する。
我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
論文 参考訳(メタデータ) (2021-12-23T02:31:50Z) - Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。
我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文 参考訳(メタデータ) (2020-11-16T06:09:56Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。