論文の概要: Stochastic differential equations for limiting description of UCB rule
for Gaussian multi-armed bandits
- arxiv url: http://arxiv.org/abs/2112.06423v1
- Date: Mon, 13 Dec 2021 05:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 03:51:35.161580
- Title: Stochastic differential equations for limiting description of UCB rule
for Gaussian multi-armed bandits
- Title(参考訳): ガウス多武装バンディットのUPB則の記述を制限する確率微分方程式
- Authors: Sergey Garbar
- Abstract要約: 制御地平線サイズが既知の多腕バンディットの高信頼バウンド戦略をN$とみなす。
平均報酬が次数$N-1/2$で異なる場合, 報酬の密分布に対してモンテカルロシミュレーションを行った。
正規化された後悔が最大値よりも顕著に大きくないときの制御水平方向の最小サイズを推定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the upper confidence bound strategy for Gaussian multi-armed
bandits with known control horizon sizes $N$ and build its limiting description
with a system of stochastic differential equations and ordinary differential
equations. Rewards for the arms are assumed to have unknown expected values and
known variances. A set of Monte-Carlo simulations was performed for the case of
close distributions of rewards, when mean rewards differ by the magnitude of
order $N^{-1/2}$, as it yields the highest normalized regret, to verify the
validity of the obtained description. The minimal size of the control horizon
when the normalized regret is not noticeably larger than maximum possible was
estimated.
- Abstract(参考訳): ガウス多武装バンドの高信頼バウンド戦略を制御地平線サイズが既知の$N$で検討し、確率微分方程式と常微分方程式の系を用いて制限記述を構築する。
腕に対する報酬は、未知の期待値と既知のばらつきを持つと仮定される。
1組のモンテカルロシミュレーションが、報酬の密分布の場合、平均報酬が、最も正規化された後悔を与えるため、$n^{-1/2}$の桁数によって異なり、得られた記述の妥当性を検証するために行われた。
正規化された後悔が最大値よりも顕著に大きくない制御水平方向の最小サイズを推定した。
関連論文リスト
- Quantum Heavy-tailed Bandits [36.458771174473924]
重み付き報酬と量子報酬を用いたマルチアーム・バンディット(MAB)とリニア・バンディット(SLB)について検討した。
まず,量子モンテカルロ推定器に基づく重み付き分布に対する新しい量子平均推定器を提案する。
量子平均推定器に基づき、量子重み付きMABとSLBに着目し、上信頼境界(UCB)フレームワークに基づく量子アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-23T19:23:10Z) - Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with
Probabilistically Triggered Arms or Independent Arms [53.89752069984382]
半帯域 (CMAB) について検討し, 半帯域 (CMAB) におけるバッチサイズ (K$) の依存性の低減に着目した。
まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定に対して,分散を考慮した信頼区間を持つBCUCB-Tアルゴリズムを提案する。
次に,独立アームを用いた非トリガ型CMABの設定に対して,TPVM条件の非トリガ型を利用したSESCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T13:09:39Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Estimation & Recognition under Perspective of Random-Fuzzy Dual
Interpretation of Unknown Quantity: with Demonstration of IMM Filter [1.7188280334580195]
1)未知量のランダムファジィ二重解釈,2)実用上の問題に対してシグマ-マックス演算子を選択する原理,である。
不正確な事前推定に係わる未知量の連続は、より適切にランダム性としてモデル化され、シグマ推論によって処理されるべきであることを示す。
短距離火器管制レーダと長距離監視レーダの両方のシミュレーションデータを用いた目標追跡の操作例において、改良されたIMMフィルタは従来のIMMフィルタよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-20T14:01:34Z) - Asymptotically Optimal Bandits under Weighted Information [10.939683083130616]
エージェントが各ラウンドで複数のアームを演奏できるマルチアームバンディット装置における後悔の問題について検討する。
本稿では,Thompson-Sampling ベースの戦略を提案する。この戦略は,各腕が最高の腕であるという後続の信念として,パワープロファイルを設計する。
論文 参考訳(メタデータ) (2021-05-28T21:28:44Z) - Nonstationary Stochastic Multiarmed Bandits: UCB Policies and Minimax
Regret [5.1398743023989555]
我々は、各腕に関連する報酬の分布が時間変動であると仮定する非定常的マルチアーミングバンディット(MAB)問題を研究する。
提案手法は, 変動予算を満たした報酬分配系列の組に対する後悔の前提となる, 最悪の場合の後悔という観点から, 提案手法の性能を特徴付ける。
論文 参考訳(メタデータ) (2021-01-22T07:34:09Z) - Minimax Policy for Heavy-tailed Bandits [10.203602318836444]
我々は、飽和経験平均を用いて、ガウス以下の報酬分布に対するミニマックスポリシー MOSS を修正し、ロバスト MOSS と呼ばれる新しいアルゴリズムを設計する。
報酬分布に対する1+エプシロン=1+エプシロン=1+エプシロン=1+エプシロン=1+エプシロン=1+エプシロン=1+エプシロン=1+エプシロン=1+エプシロン=1+エプシロン=1+エプシロン=1+エプシロン=1。
論文 参考訳(メタデータ) (2020-07-20T21:43:57Z) - Sharp Statistical Guarantees for Adversarially Robust Gaussian
Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。
結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文 参考訳(メタデータ) (2020-06-29T21:06:52Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。