論文の概要: Combinatorial Gaussian Process Bandits in Bayesian Settings: Theory and
Application for Energy-Efficient Navigation
- arxiv url: http://arxiv.org/abs/2312.12676v1
- Date: Wed, 20 Dec 2023 00:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:29:33.564648
- Title: Combinatorial Gaussian Process Bandits in Bayesian Settings: Theory and
Application for Energy-Efficient Navigation
- Title(参考訳): ベイズ設定における組合せガウス過程帯域:エネルギー効率の良い航法の理論と応用
- Authors: Jack Sandberg, Niklas {\AA}kerblom, Morteza Haghir Chehreghani
- Abstract要約: 本研究では, GP-UCB, Bayes-GP-UCB GP-TSの3つのアルゴリズムに対して, ベイズ的設定を考察し, 新たなベイズ的後悔境界を与える。
我々は、オンラインエネルギー効率のナビゲーション問題を文脈的バンディットとして定式化し、合成および実世界の道路網に関する総合的な実験的研究を提供する。
- 参考スコア(独自算出の注目度): 6.466505075075075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a combinatorial Gaussian process semi-bandit problem with
time-varying arm availability. Each round, an agent is provided a set of
available base arms and must select a subset of them to maximize the long-term
cumulative reward. Assuming the expected rewards are sampled from a Gaussian
process (GP) over the arm space, the agent can efficiently learn. We study the
Bayesian setting and provide novel Bayesian regret bounds for three GP-based
algorithms: GP-UCB, Bayes-GP-UCB and GP-TS. Our bounds extend previous results
for GP-UCB and GP-TS to a combinatorial setting with varying arm availability
and to the best of our knowledge, we provide the first Bayesian regret bound
for Bayes-GP-UCB. Time-varying arm availability encompasses other widely
considered bandit problems such as contextual bandits. We formulate the online
energy-efficient navigation problem as a combinatorial and contextual bandit
and provide a comprehensive experimental study on synthetic and real-world road
networks with detailed simulations. The contextual GP model obtains lower
regret and is less dependent on the informativeness of the prior compared to
the non-contextual Bayesian inference model. In addition, Thompson sampling
obtains lower regret than Bayes-UCB for both the contextual and non-contextual
model.
- Abstract(参考訳): 時変アームアベイラビリティを伴うガウス過程の半帯域問題を考える。
各ラウンドごとにエージェントが利用可能なベースアームのセットを提供し、そのサブセットを選択して長期累積報酬を最大化しなければならない。
期待される報酬が腕空間上のガウス過程(GP)からサンプリングされるとすると、エージェントは効率的に学習できる。
GP-UCB, Bayes-GP-UCB, GP-TSの3つのアルゴリズムに対して, ベイズ設定について検討し, 新たなベイズ後悔境界を提供する。
gp-ucb と gp-ts の既往の結果を,arm の可用性の異なる組み合わせ設定に拡張し,我々の知る限りでは bayes-gp-ucb に対する最初のベイズ後悔を与える。
時変アーム・アベイラビリティーは、コンテキスト・バンディットのような他の広く検討されているバンディット問題を含んでいる。
オンラインエネルギー効率の良いナビゲーション問題をコンビネートリアル・コンテクスト・バンディットとして定式化し,詳細なシミュレーションによる合成・実世界の道路網に関する総合実験を行った。
文脈gpモデルは、非文脈ベイズ推論モデルと比較して、より低い後悔を得ることができ、前者の情報度に依存しない。
さらに、トンプソンサンプリングは文脈モデルと非文脈モデルの両方においてベイズUCBよりも低い後悔を得る。
関連論文リスト
- Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian
Regret Bounds [24.855721727772284]
サンプルパス(PIMS)の最大値から改善の確率がベイズ累積後悔(BCR)の限界値より強くなることを示す。
また,GP-UCBとトンプソンサンプリングの実践的問題を緩和するPIMSを実証する。
論文 参考訳(メタデータ) (2023-11-07T06:54:40Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Surrogate modeling for Bayesian optimization beyond a single Gaussian
process [62.294228304646516]
本稿では,探索空間の活用と探索のバランスをとるための新しいベイズ代理モデルを提案する。
拡張性のある関数サンプリングを実現するため、GPモデル毎にランダムな特徴ベースのカーネル近似を利用する。
提案した EGP-TS を大域的最適に収束させるため,ベイズ的後悔の概念に基づいて解析を行う。
論文 参考訳(メタデータ) (2022-05-27T16:43:10Z) - Contextual Combinatorial Multi-output GP Bandits with Group Constraints [11.317136648551537]
連合型多武装バンディット問題では、クライアントを保護するための最小限のプライバシー要件を満たしながら、世界的報酬を最大化することが主な目標である。
我々は、グループやアクションセットの変更によるコンテキスト的バンディットの設定を検討し、そこでは、類似のベースアームがグループに到着し、スーパーアームと呼ばれるベースアームのセットが各ラウンドで選択され、スーパーアームの報酬を最大化し、ベースアームが選択されたグループの報酬の制約を満たす。
次に、累積スーパーアーム報酬の最大化と充足のバランスをとる、Thresholded Combinatored upper Confidence Bounds (TCGP-UCB)と呼ばれる新しい二重UCBGPバンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:39:09Z) - Achieving the Pareto Frontier of Regret Minimization and Best Arm
Identification in Multi-Armed Bandits [91.8283876874947]
本稿では,BoBW-lil'UCB$(gamma)$アルゴリズムの設計と解析を行う。
i) RMとBAIの両方の目的に対して最適なアルゴリズムを同時に実行できないことを示す。
また、BoBW-lil'UCB$(gamma)$は、時間複雑性と後悔の点で競合よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-16T17:52:32Z) - Contextual Combinatorial Volatile Bandits via Gaussian Processes [10.312968200748116]
利用可能なベースアームのセットとそのコンテキストによるコンテキスト的バンディット問題を考える。
我々は,カーネル上信頼境界(O'CLOK-UCB)を用いた最適組合せ学習と最適化というアルゴリズムを提案する。
両アルゴリズムが従来のUTBベースのアルゴリズムを現実的な設定で大幅に上回っていることを実験的に示す。
論文 参考訳(メタデータ) (2021-10-05T18:02:10Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z) - The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms [10.662105162882526]
本研究は,Emphmany-armed regimeにおける$k$-armed bandit問題について考察する。
以上の結果から,多腕の環境下での強欲なアルゴリズムには,新たなエフェフリー探索法が有用であることが示唆された。
論文 参考訳(メタデータ) (2020-02-24T08:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。