論文の概要: Continuous-in-time Limit for Bayesian Bandits
- arxiv url: http://arxiv.org/abs/2210.07513v2
- Date: Wed, 10 May 2023 22:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:48:49.993068
- Title: Continuous-in-time Limit for Bayesian Bandits
- Title(参考訳): ベイズ帯域の連続時間制限
- Authors: Yuhua Zhu, Zachary Izzo, Lexing Ying
- Abstract要約: 本稿ではベイジアンセッティングにおける盗賊問題を再考する。
目的は、ベイズ側の後悔を最小限に抑える最適な政策を見つけることである。
最適ポリシーの計算は、問題水平線の長さや武器の数が大きい場合、しばしば難解である。
- 参考スコア(独自算出の注目度): 10.914558012458427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper revisits the bandit problem in the Bayesian setting. The Bayesian
approach formulates the bandit problem as an optimization problem, and the goal
is to find the optimal policy which minimizes the Bayesian regret. One of the
main challenges facing the Bayesian approach is that computation of the optimal
policy is often intractable, especially when the length of the problem horizon
or the number of arms is large. In this paper, we first show that under a
suitable rescaling, the Bayesian bandit problem converges toward a continuous
Hamilton-Jacobi-Bellman (HJB) equation. The optimal policy for the limiting HJB
equation can be explicitly obtained for several common bandit problems, and we
give numerical methods to solve the HJB equation when an explicit solution is
not available. Based on these results, we propose an approximate Bayes-optimal
policy for solving Bayesian bandit problems with large horizons. Our method has
the added benefit that its computational cost does not increase as the horizon
increases.
- Abstract(参考訳): 本稿ではベイズ設定における盗賊問題を再考する。
ベイジアンアプローチは、バンディット問題を最適化問題として定式化し、ベイジアン後悔を最小限に抑える最適なポリシーを見つけることが目的である。
ベイズ的アプローチに直面する主な課題の1つは、最適ポリシーの計算がしばしば難解であることであり、特に問題水平線の長さや武器の数が大きい場合である。
本稿では、まず適切な再スケーリングの下で、ベイジアン・バンディット問題は連続ハミルトン・ヤコビ・ベルマン方程式(HJB)に収束することを示す。
制限HJB方程式の最適ポリシは、いくつかの共通バンディット問題に対して明示的に得ることができ、明示的な解が得られない場合に、HJB方程式を解く数値的な方法を与える。
これらの結果に基づき,ベイズ帯域幅が広いベイズ帯域幅の問題を解くための近似ベイズ最適政策を提案する。
本手法は地平線が大きくなるにつれて計算コストが増大しないという付加的な利点を有する。
関連論文リスト
- Bayesian Analysis of Combinatorial Gaussian Process Bandits [6.594362025904486]
GP-UCB, GP-BayesUCB, GP-TSの3つのアルゴリズムに対して, 新たな累積後悔境界を提供する。
我々は,オンラインエネルギー効率ナビゲーションの課題に対処するために,我々のフレームワークを使用している。
論文 参考訳(メタデータ) (2023-12-20T00:31:43Z) - $\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。
文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。
本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文 参考訳(メタデータ) (2023-10-22T03:42:59Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Bayesian Fixed-Budget Best-Arm Identification [24.31655036648236]
固定予算ベストアーム識別(英語: Fixed-budget best-arm identification、BAI)は、エージェントが一定の予算内で最適な腕を特定する確率を最大化する盗賊問題である。
ベイズ除去アルゴリズムを提案し、最適な腕を誤識別する確率の上限を導出する。
論文 参考訳(メタデータ) (2022-11-15T23:29:51Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Dare not to Ask: Problem-Dependent Guarantees for Budgeted Bandits [66.02233330016435]
後悔と質問されたフィードバックの両方について、問題に依存した保証を提供します。
本稿では,問題依存的後悔と累積的フィードバック境界を導出するBuFALUというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-12T03:24:57Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Approximation Theory Based Methods for RKHS Bandits [9.391375268580806]
RKHSバンディット問題は、ノイズフィードバックを伴う非線形関数のオンライン最適化問題である。
逆 RKHS バンディット問題に対する一般アルゴリズムは存在しない。
本稿では, RKHSバンドイット問題に対する効率的なアルゴリズムと, RKHSバンドイット問題に対する最初の一般アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-23T05:14:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。