論文の概要: Bayesian Analysis of Combinatorial Gaussian Process Bandits
- arxiv url: http://arxiv.org/abs/2312.12676v2
- Date: Wed, 23 Oct 2024 11:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:53:38.481394
- Title: Bayesian Analysis of Combinatorial Gaussian Process Bandits
- Title(参考訳): 組合せガウス過程帯域のベイズ解析
- Authors: Jack Sandberg, Niklas Åkerblom, Morteza Haghir Chehreghani,
- Abstract要約: GP-UCB, GP-BayesUCB, GP-TSの3つのアルゴリズムに対して, 新たな累積後悔境界を提供する。
我々は,オンラインエネルギー効率ナビゲーションの課題に対処するために,我々のフレームワークを使用している。
- 参考スコア(独自算出の注目度): 6.594362025904486
- License:
- Abstract: We consider the combinatorial volatile Gaussian process (GP) semi-bandit problem. Each round, an agent is provided a set of available base arms and must select a subset of them to maximize the long-term cumulative reward. We study the Bayesian setting and provide novel Bayesian cumulative regret bounds for three GP-based algorithms: GP-UCB, GP-BayesUCB and GP-TS. Our bounds extend previous results for GP-UCB and GP-TS to the infinite, volatile and combinatorial setting, and to the best of our knowledge, we provide the first regret bound for GP-BayesUCB. Volatile arms encompass other widely considered bandit problems such as contextual bandits. Furthermore, we employ our framework to address the challenging real-world problem of online energy-efficient navigation, where we demonstrate its effectiveness compared to the alternatives.
- Abstract(参考訳): 組合せ揮発性ガウス過程(GP)半帯域問題を考える。
各ラウンドごとにエージェントが利用可能なベースアームのセットを提供し、そのサブセットを選択して長期累積報酬を最大化しなければならない。
GP-UCB, GP-BayesUCB, GP-TSの3つのアルゴリズムに対して, ベイジアン設定を考察し, 新たなベイジアン累積後悔境界を与える。
我々のバウンダリは、GP-UCB と GP-TS の以前の結果を無限で揮発的で組合せ的な設定に拡張し、私たちの知る限り、GP-BayesUCB に対する最初の後悔のバウンダリを提供する。
揮発性腕は、文脈的包帯のような他の広く考慮された盗賊問題を含んでいる。
さらに,本フレームワークを用いて,オンラインエネルギー効率ナビゲーションの課題に対処し,その有効性を示す。
関連論文リスト
- Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds [22.752728853701083]
ガウス過程上信頼境界(GP-UCB)とトンプソンサンプリング(TS)はベイズ累積後悔(BCR)に関する確立された理論的性質を持つよく知られた選択肢である。
GP-UCBとは異なり,PIMSはより厳密なBCR境界を実現し,ハイパーパラメータチューニングを回避する。
GP-UCB と TS の実践的問題を緩和する PIMS の有効性に着目し,幅広い実験を行った。
論文 参考訳(メタデータ) (2023-11-07T06:54:40Z) - Quantum Bayesian Optimization [64.58749619145908]
本稿では,量子ガウスプロセスアップパー信頼度境界(Q-GP-UCB)アルゴリズムを提案する。
O(polylog T) は古典的設定における Omega(sqrt(T)) の左下限よりもかなり小さい。
線形核を持つQ-GP-UCBは、新しい信頼楕円体解析により、量子線形 UCB アルゴリズムよりも小さな後悔を実現する。
論文 参考訳(メタデータ) (2023-10-09T03:10:42Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Contextual Combinatorial Multi-output GP Bandits with Group Constraints [11.317136648551537]
連合型多武装バンディット問題では、クライアントを保護するための最小限のプライバシー要件を満たしながら、世界的報酬を最大化することが主な目標である。
我々は、グループやアクションセットの変更によるコンテキスト的バンディットの設定を検討し、そこでは、類似のベースアームがグループに到着し、スーパーアームと呼ばれるベースアームのセットが各ラウンドで選択され、スーパーアームの報酬を最大化し、ベースアームが選択されたグループの報酬の制約を満たす。
次に、累積スーパーアーム報酬の最大化と充足のバランスをとる、Thresholded Combinatored upper Confidence Bounds (TCGP-UCB)と呼ばれる新しい二重UCBGPバンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:39:09Z) - Contextual Combinatorial Volatile Bandits via Gaussian Processes [10.312968200748116]
利用可能なベースアームのセットとそのコンテキストによるコンテキスト的バンディット問題を考える。
我々は,カーネル上信頼境界(O'CLOK-UCB)を用いた最適組合せ学習と最適化というアルゴリズムを提案する。
両アルゴリズムが従来のUTBベースのアルゴリズムを現実的な設定で大幅に上回っていることを実験的に示す。
論文 参考訳(メタデータ) (2021-10-05T18:02:10Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Regret Bounds for Safe Gaussian Process Bandit Optimization [42.336882999112845]
安全クリティカルなシステムでは、学習者の行動が学習プロセスのどの段階においても安全上の制約に違反しないことが最重要である。
我々は,SGP-UCBと呼ばれるGP-UCBの安全版を開発し,各ラウンドの安全制約を尊重するために必要な修正を行った。
論文 参考訳(メタデータ) (2020-05-05T03:54:43Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z) - Near-linear Time Gaussian Process Optimization with Adaptive Batching
and Resparsification [119.41129787351092]
BBKBは非回帰GP最適化アルゴリズムで、ほぼ直線的に実行し、バッチで候補を選択する。
また,同じバウンダリを用いて,スパルスGP近似の更新コストを適応的に遅延させることで,ステップ毎の償却コストをほぼ一定に抑えることができることを示した。
論文 参考訳(メタデータ) (2020-02-23T17:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。