論文の概要: Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures
- arxiv url: http://arxiv.org/abs/2005.07443v1
- Date: Fri, 15 May 2020 09:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:00:58.773122
- Title: Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures
- Title(参考訳): 限界予算下における制約付きベイズ最適化の抽出探索
- Authors: Alonso Marco, Alexander von Rohr, Dominik Baumann, Jos\'e Miguel
Hern\'andez-Lobato and Sebastian Trimpe
- Abstract要約: 本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
- 参考スコア(独自算出の注目度): 62.41541049302712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When learning to ride a bike, a child falls down a number of times before
achieving the first success. As falling down usually has only mild
consequences, it can be seen as a tolerable failure in exchange for a faster
learning process, as it provides rich information about an undesired behavior.
In the context of Bayesian optimization under unknown constraints (BOC),
typical strategies for safe learning explore conservatively and avoid failures
by all means. On the other side of the spectrum, non conservative BOC
algorithms that allow failing may fail an unbounded number of times before
reaching the optimum. In this work, we propose a novel decision maker grounded
in control theory that controls the amount of risk we allow in the search as a
function of a given budget of failures. Empirical validation shows that our
algorithm uses the failures budget more efficiently in a variety of
optimization experiments, and generally achieves lower regret, than
state-of-the-art methods. In addition, we propose an original algorithm for
unconstrained Bayesian optimization inspired by the notion of excursion sets in
stochastic processes, upon which the failures-aware algorithm is built.
- Abstract(参考訳): 自転車に乗ることを学ぶと、子供は最初の成功を達成する前に何度も倒れる。
転倒は通常穏やかな結果にしかならないため、望ましくない振る舞いに関する豊富な情報を提供するため、より高速な学習プロセスと引き換えに、耐え難い失敗と見なすことができる。
未知制約(boc)下でのベイズ最適化の文脈では、セーフラーニングの典型的な戦略は保守的に探求し、あらゆる方法で失敗を避ける。
スペクトルの反対側では、フェールを許容する非保守的BOCアルゴリズムは最適点に達する前に無拘束で何度も失敗することがある。
本研究では,与えられた障害予算の関数として探索において許容されるリスク量を制御する制御理論に基づく新たな意思決定者を提案する。
実証的検証により,本アルゴリズムは様々な最適化実験において,故障予算をより効率的に使用し,一般的には最先端手法よりも少ない後悔を達成できることを示した。
さらに,確率過程における探索集合の概念にインスパイアされた非拘束ベイズ最適化のためのアルゴリズムを提案し,そのアルゴリズムが構築される。
関連論文リスト
- Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Self-adaptive algorithms for quasiconvex programming and applications to
machine learning [0.0]
凸線探索技術や,軽微な仮定の下での汎用的アプローチを含まない,自己適応的なステップサイズ戦略を提案する。
提案手法は,いくつかの計算例から予備的な結果によって検証される。
大規模問題に対する提案手法の有効性を実証するため,機械学習実験に適用した。
論文 参考訳(メタデータ) (2022-12-13T05:30:29Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Lenient Regret and Good-Action Identification in Gaussian Process
Bandits [43.03669155559218]
我々は、あるしきい値を超える関数値が「十分良い」という緩和された最適化基準の下で、ガウス過程(GP)バンディットの問題を研究する。
実用面では、既知のしきい値に従って1つの「良い行動」を見つけることの問題を考えるとともに、しきい値の知識を生かしたいくつかの善行動識別アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-02-11T01:16:58Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Learning and Planning in Average-Reward Markov Decision Processes [15.586087060535398]
我々は,平均回帰MDPの学習と計画アルゴリズムを導入する。
全てのアルゴリズムは,平均報酬の推定値を更新する際に,従来の誤差よりも時間差誤差を用いている。
論文 参考訳(メタデータ) (2020-06-29T19:03:24Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。