論文の概要: Combinatorial Gaussian Process Bandits in Bayesian Settings: Theory and
Application for Energy-Efficient Navigation
- arxiv url: http://arxiv.org/abs/2312.12676v1
- Date: Wed, 20 Dec 2023 00:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:29:33.564648
- Title: Combinatorial Gaussian Process Bandits in Bayesian Settings: Theory and
Application for Energy-Efficient Navigation
- Title(参考訳): ベイズ設定における組合せガウス過程帯域:エネルギー効率の良い航法の理論と応用
- Authors: Jack Sandberg, Niklas {\AA}kerblom, Morteza Haghir Chehreghani
- Abstract要約: 本研究では, GP-UCB, Bayes-GP-UCB GP-TSの3つのアルゴリズムに対して, ベイズ的設定を考察し, 新たなベイズ的後悔境界を与える。
我々は、オンラインエネルギー効率のナビゲーション問題を文脈的バンディットとして定式化し、合成および実世界の道路網に関する総合的な実験的研究を提供する。
- 参考スコア(独自算出の注目度): 6.466505075075075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a combinatorial Gaussian process semi-bandit problem with
time-varying arm availability. Each round, an agent is provided a set of
available base arms and must select a subset of them to maximize the long-term
cumulative reward. Assuming the expected rewards are sampled from a Gaussian
process (GP) over the arm space, the agent can efficiently learn. We study the
Bayesian setting and provide novel Bayesian regret bounds for three GP-based
algorithms: GP-UCB, Bayes-GP-UCB and GP-TS. Our bounds extend previous results
for GP-UCB and GP-TS to a combinatorial setting with varying arm availability
and to the best of our knowledge, we provide the first Bayesian regret bound
for Bayes-GP-UCB. Time-varying arm availability encompasses other widely
considered bandit problems such as contextual bandits. We formulate the online
energy-efficient navigation problem as a combinatorial and contextual bandit
and provide a comprehensive experimental study on synthetic and real-world road
networks with detailed simulations. The contextual GP model obtains lower
regret and is less dependent on the informativeness of the prior compared to
the non-contextual Bayesian inference model. In addition, Thompson sampling
obtains lower regret than Bayes-UCB for both the contextual and non-contextual
model.
- Abstract(参考訳): 時変アームアベイラビリティを伴うガウス過程の半帯域問題を考える。
各ラウンドごとにエージェントが利用可能なベースアームのセットを提供し、そのサブセットを選択して長期累積報酬を最大化しなければならない。
期待される報酬が腕空間上のガウス過程(GP)からサンプリングされるとすると、エージェントは効率的に学習できる。
GP-UCB, Bayes-GP-UCB, GP-TSの3つのアルゴリズムに対して, ベイズ設定について検討し, 新たなベイズ後悔境界を提供する。
gp-ucb と gp-ts の既往の結果を,arm の可用性の異なる組み合わせ設定に拡張し,我々の知る限りでは bayes-gp-ucb に対する最初のベイズ後悔を与える。
時変アーム・アベイラビリティーは、コンテキスト・バンディットのような他の広く検討されているバンディット問題を含んでいる。
オンラインエネルギー効率の良いナビゲーション問題をコンビネートリアル・コンテクスト・バンディットとして定式化し,詳細なシミュレーションによる合成・実世界の道路網に関する総合実験を行った。
文脈gpモデルは、非文脈ベイズ推論モデルと比較して、より低い後悔を得ることができ、前者の情報度に依存しない。
さらに、トンプソンサンプリングは文脈モデルと非文脈モデルの両方においてベイズUCBよりも低い後悔を得る。
関連論文リスト
- Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds [22.752728853701083]
ガウス過程上信頼境界(GP-UCB)とトンプソンサンプリング(TS)はベイズ累積後悔(BCR)に関する確立された理論的性質を持つよく知られた選択肢である。
GP-UCBとは異なり,PIMSはより厳密なBCR境界を実現し,ハイパーパラメータチューニングを回避する。
GP-UCB と TS の実践的問題を緩和する PIMS の有効性に着目し,幅広い実験を行った。
論文 参考訳(メタデータ) (2023-11-07T06:54:40Z) - Quantum Bayesian Optimization [64.58749619145908]
本稿では,量子ガウスプロセスアップパー信頼度境界(Q-GP-UCB)アルゴリズムを提案する。
O(polylog T) は古典的設定における Omega(sqrt(T)) の左下限よりもかなり小さい。
線形核を持つQ-GP-UCBは、新しい信頼楕円体解析により、量子線形 UCB アルゴリズムよりも小さな後悔を実現する。
論文 参考訳(メタデータ) (2023-10-09T03:10:42Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Contextual Combinatorial Multi-output GP Bandits with Group Constraints [11.317136648551537]
連合型多武装バンディット問題では、クライアントを保護するための最小限のプライバシー要件を満たしながら、世界的報酬を最大化することが主な目標である。
我々は、グループやアクションセットの変更によるコンテキスト的バンディットの設定を検討し、そこでは、類似のベースアームがグループに到着し、スーパーアームと呼ばれるベースアームのセットが各ラウンドで選択され、スーパーアームの報酬を最大化し、ベースアームが選択されたグループの報酬の制約を満たす。
次に、累積スーパーアーム報酬の最大化と充足のバランスをとる、Thresholded Combinatored upper Confidence Bounds (TCGP-UCB)と呼ばれる新しい二重UCBGPバンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:39:09Z) - Contextual Combinatorial Volatile Bandits via Gaussian Processes [10.312968200748116]
利用可能なベースアームのセットとそのコンテキストによるコンテキスト的バンディット問題を考える。
我々は,カーネル上信頼境界(O'CLOK-UCB)を用いた最適組合せ学習と最適化というアルゴリズムを提案する。
両アルゴリズムが従来のUTBベースのアルゴリズムを現実的な設定で大幅に上回っていることを実験的に示す。
論文 参考訳(メタデータ) (2021-10-05T18:02:10Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Regret Bounds for Safe Gaussian Process Bandit Optimization [42.336882999112845]
安全クリティカルなシステムでは、学習者の行動が学習プロセスのどの段階においても安全上の制約に違反しないことが最重要である。
我々は,SGP-UCBと呼ばれるGP-UCBの安全版を開発し,各ラウンドの安全制約を尊重するために必要な修正を行った。
論文 参考訳(メタデータ) (2020-05-05T03:54:43Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z) - Near-linear Time Gaussian Process Optimization with Adaptive Batching
and Resparsification [119.41129787351092]
BBKBは非回帰GP最適化アルゴリズムで、ほぼ直線的に実行し、バッチで候補を選択する。
また,同じバウンダリを用いて,スパルスGP近似の更新コストを適応的に遅延させることで,ステップ毎の償却コストをほぼ一定に抑えることができることを示した。
論文 参考訳(メタデータ) (2020-02-23T17:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。