論文の概要: Recursive Two-Step Lookahead Expected Payoff for Time-Dependent Bayesian
Optimization
- arxiv url: http://arxiv.org/abs/2006.08037v2
- Date: Tue, 8 Dec 2020 18:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:22:14.331507
- Title: Recursive Two-Step Lookahead Expected Payoff for Time-Dependent Bayesian
Optimization
- Title(参考訳): 時間依存ベイズ最適化のための再帰的二段階ルックアヘッド予測
- Authors: S. Ashwin Renganathan, Jeffrey Larson and Stefan Wild
- Abstract要約: 2段階のルックアヘッド(texttr2LEY$)取得関数は、すべての段階で非明視的な決定を行う。
$texttr2LEY$は、時間的地平線から遠く離れた自然探査特性を示す。
textttr2LEY$の有用性を実証するために、合成データセットと実世界のデータセットの両方を通して、人気のある取得関数の時間依存拡張と比較する。
- 参考スコア(独自算出の注目度): 1.2246649738388389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel Bayesian method to solve the maximization of a
time-dependent expensive-to-evaluate oracle. We are interested in the decision
that maximizes the oracle at a finite time horizon, when relatively few noisy
evaluations can be performed before the horizon. Our recursive, two-step
lookahead expected payoff ($\texttt{r2LEY}$) acquisition function makes
nonmyopic decisions at every stage by maximizing the estimated expected value
of the oracle at the horizon. $\texttt{r2LEY}$ circumvents the evaluation of
the expensive multistep (more than two steps) lookahead acquisition function by
recursively optimizing a two-step lookahead acquisition function at every
stage; unbiased estimators of this latter function and its gradient are
utilized for efficient optimization. $\texttt{r2LEY}$ is shown to exhibit
natural exploration properties far from the time horizon, enabling accurate
emulation of the oracle, which is exploited in the final decision made at the
horizon. To demonstrate the utility of $\texttt{r2LEY}$, we compare it with
time-dependent extensions of popular myopic acquisition functions via both
synthetic and real-world datasets.
- Abstract(参考訳): 我々は,時間依存の費用対評価オラクルの最大化を解決する新しいベイズ法を提案する。
有限時間地平線でオラクルを最大化する決定は、比較的少ないノイズ評価を地平線の前に行うことができる場合に、我々は興味を持っている。
我々の再帰的で、2段階のルックアヘッド予測ペイオフ (\texttt{r2LEY}$) 取得関数は、水平線におけるオラクルの予測値の最大化によって、各段階における非神秘的な決定を行う。
$\texttt{r2LEY}$は、各段階で2段階のルックアヘッド取得関数を再帰的に最適化することにより、高価なマルチステップ(2段階以上)ルックアヘッド取得関数の評価を回避する。
$\texttt{r2LEY}$ は時間地平線から遠く離れた自然探査特性を示すことが示され、神託の正確なエミュレーションを可能にする。
$\texttt{r2LEY}$の実用性を実証するために、合成と実世界の両方のデータセットを介して、一般的な筋電図取得関数の時間依存拡張と比較する。
関連論文リスト
- This Too Shall Pass: Removing Stale Observations in Dynamic Bayesian Optimization [4.6481096949408105]
我々は、データセットから無関係な観測をその場で除去できるDBOアルゴリズムを構築した。
We establish the superiority of W-DBO which is outperforming state-of-the-art method by a comfortable margin。
論文 参考訳(メタデータ) (2024-05-23T13:22:59Z) - Markov Chain-based Optimization Time Analysis of Bivalent Ant Colony Optimization for Sorting and LeadingOnes [0.0]
2つのフェロモン値の比がバイバレントACO(BACO)のランタイム挙動を著しく制御していることを示す。
我々は,フェロモンが解法に与える影響に関して,大幅に単純化されたアリアルゴリズムを持っているにもかかわらず,その問題の期待する最適化時間に対する既知の境界であるOneMax(O(nlog n)$)とLeadingOnes(O(n2)$)は,我々のアプローチの副産物として再生産可能であることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:02:50Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - A Fully First-Order Method for Stochastic Bilevel Optimization [8.663726907303303]
一階勾配オラクルのみが利用できる場合、制約のない二段階最適化問題を考える。
完全一階近似法(F2SA)を提案し,その非漸近収束特性について検討する。
MNISTデータハイパクリーニング実験において,既存の2次手法よりも提案手法の実用性能が優れていることを示す。
論文 参考訳(メタデータ) (2023-01-26T05:34:21Z) - Extra-Newton: A First Approach to Noise-Adaptive Accelerated
Second-Order Methods [57.050204432302195]
本研究では,2次スムーズな凸関数を最小化するための普遍的かつ適応的な2次法を提案する。
我々のアルゴリズムは、オラクルフィードバックが分散$sigma2$であるときに$O(sigma / sqrtT)$収束を達成し、決定論的オラクルで$O(1 / T3)$に収束を改善する。
論文 参考訳(メタデータ) (2022-11-03T14:12:51Z) - A Near-Optimal Algorithm for Univariate Zeroth-Order Budget Convex
Optimization [4.608510640547952]
我々は、Dy Searchのほぼ最適最適化誤差を保証する。
誤差境界における大域リプシッツ定数への古典的依存は、予算の粒度のアーティファクトであることを示す。
論文 参考訳(メタデータ) (2022-08-13T19:57:04Z) - A Projection-free Algorithm for Constrained Stochastic Multi-level
Composition Optimization [12.096252285460814]
合成最適化のためのプロジェクションフリー条件付き勾配型アルゴリズムを提案する。
提案アルゴリズムで要求されるオラクルの数と線形最小化オラクルは,それぞれ$mathcalO_T(epsilon-2)$と$mathcalO_T(epsilon-3)$である。
論文 参考訳(メタデータ) (2022-02-09T06:05:38Z) - Bayesian Optimistic Optimisation with Exponentially Decaying Regret [58.02542541410322]
現在の実用的なBOアルゴリズムは、$mathcalO(fraclogNsqrtN)$から$mathcalO(e-sqrtN)$まで、$N$は評価の数である。
本稿では,boと木に基づく楽観的楽観化の概念を絡み合うことにより,無音環境における後悔を改善できる可能性について検討する。
次数$mathcal O(N-sqrt)で指数的再帰を達成できる最初の実践的手法であるBOOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T13:07:44Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis
and Application to Actor-Critic [142.1492359556374]
双レベル最適化は、2レベル構造を示す問題のクラスである。
このような二段階問題に対処するための2段階近似(TTSA)アルゴリズムを提案する。
本稿では,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカルポリシー最適化アルゴリズムが有用であることを示す。
論文 参考訳(メタデータ) (2020-07-10T05:20:02Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。