論文の概要: Lenient Regret and Good-Action Identification in Gaussian Process
Bandits
- arxiv url: http://arxiv.org/abs/2102.05793v1
- Date: Thu, 11 Feb 2021 01:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:17:31.699407
- Title: Lenient Regret and Good-Action Identification in Gaussian Process
Bandits
- Title(参考訳): ガウス過程帯域におけるLenient RegretとGood-Action Identification
- Authors: Xu Cai, Selwyn Gomes, Jonathan Scarlett
- Abstract要約: 我々は、あるしきい値を超える関数値が「十分良い」という緩和された最適化基準の下で、ガウス過程(GP)バンディットの問題を研究する。
実用面では、既知のしきい値に従って1つの「良い行動」を見つけることの問題を考えるとともに、しきい値の知識を生かしたいくつかの善行動識別アルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 43.03669155559218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of Gaussian process (GP) bandits under
relaxed optimization criteria stating that any function value above a certain
threshold is "good enough". On the theoretical side, we study various
\emph{\lenient regret} notions in which all near-optimal actions incur zero
penalty, and provide upper bounds on the lenient regret for GP-UCB and an
elimination algorithm, circumventing the usual $O(\sqrt{T})$ term (with time
horizon $T$) resulting from zooming extremely close towards the function
maximum. In addition, we complement these upper bounds with
algorithm-independent lower bounds. On the practical side, we consider the
problem of finding a single "good action" according to a known pre-specified
threshold, and introduce several good-action identification algorithms that
exploit knowledge of the threshold. We experimentally find that such algorithms
can often find a good action faster than standard optimization-based
approaches.
- Abstract(参考訳): 本稿では,一定のしきい値を超える任意の関数値が「十分」であることを示す緩和最適化基準の下でのガウス過程(gp)バンディットの問題について検討する。
理論面では、すべての準最適作用がゼロペナルティを生じさせるような様々な \emph{\lenient regret} の概念を考察し、GP-UCB に対する寛大な後悔と除去アルゴリズムの上限を与え、通常の $O(\sqrt{T})$ 項を回避し(時間的地平線で)関数の最大値に非常に近いズームから得られる。
さらに,これらの上界をアルゴリズムに依存しない下界で補う。
実用面では、既定のしきい値に従って単一の「良いアクション」を見つける問題を検討し、閾値の知識を利用するいくつかの良いアクション識別アルゴリズムを導入する。
このようなアルゴリズムは、標準的な最適化手法よりも高速に良い作用を得られることが実験的に判明した。
関連論文リスト
- Near-Optimal Algorithm for Non-Stationary Kernelized Bandits [6.379833644595456]
時変ベイズ最適化(英語版)とも呼ばれる非定常カーネル化バンドイット問題(KB)について検討する。
我々は,2乗指数およびマタン核を持つ非定常KBに対して,アルゴリズムに依存しない最初のリフレッシュローバウンドを示す。
本稿では,ランダムな置換による位相除去を再開する手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T14:28:26Z) - Regret Bounds for Expected Improvement Algorithms in Gaussian Process
Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。
本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。
我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:17:53Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Optimal Order Simple Regret for Gaussian Process Bandits [6.84224661918159]
純粋な探索アルゴリズムは既存の境界よりもかなり厳密であることを示す。
この後悔は、カーネル上の低い境界が知られている場合に、対数的に最適であることを示す。
論文 参考訳(メタデータ) (2021-08-20T16:49:32Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。