論文の概要: Finite-Time Analysis of Round-Robin Kullback-Leibler Upper Confidence
Bounds for Optimal Adaptive Allocation with Multiple Plays and Markovian
Rewards
- arxiv url: http://arxiv.org/abs/2001.11201v2
- Date: Mon, 13 Jul 2020 18:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 11:53:42.777898
- Title: Finite-Time Analysis of Round-Robin Kullback-Leibler Upper Confidence
Bounds for Optimal Adaptive Allocation with Multiple Plays and Markovian
Rewards
- Title(参考訳): マルチプレイとマルコフリワードを用いた最適適応配置のためのラウンドロビン・クルバック・リーブラー上信頼境界の有限時間解析
- Authors: Vrettos Moulos
- Abstract要約: 本稿では,複数の演奏とマルコフ報酬を含む古典的マルチアームバンディット問題の拡張について検討する。
この問題に対処するために、各段階において、全てのアームのサンプル手段からの情報と、ラウンドロビン方式で選択された単一アームのクルバック・リーバー上信頼境界とを結合する適応的アロケーションルールを検討する。
- 参考スコア(独自算出の注目度): 10.66048003460524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study an extension of the classic stochastic multi-armed bandit problem
which involves multiple plays and Markovian rewards in the rested bandits
setting. In order to tackle this problem we consider an adaptive allocation
rule which at each stage combines the information from the sample means of all
the arms, with the Kullback-Leibler upper confidence bound of a single arm
which is selected in round-robin way. For rewards generated from a
one-parameter exponential family of Markov chains, we provide a finite-time
upper bound for the regret incurred from this adaptive allocation rule, which
reveals the logarithmic dependence of the regret on the time horizon, and which
is asymptotically optimal. For our analysis we devise several concentration
results for Markov chains, including a maximal inequality for Markov chains,
that may be of interest in their own right. As a byproduct of our analysis we
also establish asymptotically optimal, finite-time guarantees for the case of
multiple plays, and i.i.d. rewards drawn from a one-parameter exponential
family of probability densities. Additionally, we provide simulation results
that illustrate that calculating Kullback-Leibler upper confidence bounds in a
round-robin way, is significantly more efficient than calculating them for
every arm at each round, and that the expected regrets of those two approaches
behave similarly.
- Abstract(参考訳): 本稿では,複数の演奏とマルコフ報酬を含む古典的確率的マルチアームバンディット問題の拡張について検討する。
この問題に対処するために,各段階において,全アームのサンプル手段からの情報と,ラウンドロビン方式で選択された1本のアームのカルバックリーバ上信頼度バウンドとを結合した適応割当ルールを考える。
マルコフ連鎖の1パラメータ指数関数族から生成される報酬に対して、この適応割当規則から生じた後悔に対して有限時間上限を与え、それは時間軸上の後悔の対数依存性を示し、漸近的に最適である。
分析のために、マルコフ連鎖に対する最大不等式を含むマルコフ連鎖に対するいくつかの濃度結果が考案された。
分析の副産物として,複数プレイの場合の漸近的最適かつ有限時間保証,および確率密度の1パラメータ指数関数系から得られる報酬を定式化する。
さらに,kullback-leibler上限をラウンドロビン方式で計算することは,各ラウンドのアームごとに計算するよりもはるかに効率的であり,これらの2つのアプローチが期待する後悔も同じように振る舞うことを示すシミュレーション結果を提供する。
関連論文リスト
- Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。
最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。
本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文 参考訳(メタデータ) (2025-01-23T12:28:09Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Stochastic-Constrained Stochastic Optimization with Markovian Data [2.1756081703276]
マルコフ連鎖からデータサンプルが引き出され、したがって独立性がなく、同一に分布しないような環境について検討する。
ドリフト・プラス・ペナルティの2つの変種を提案する。ひとつは、基礎となるマルコフ鎖の混合時間を知る場合である。
我々のアルゴリズムは、制約関数列がマルコフ連鎖に従うような制約付きオンライン凸最適化のより一般的な設定に適用できる。
論文 参考訳(メタデータ) (2023-12-07T14:09:27Z) - Beyond the Best: Estimating Distribution Functionals in Infinite-Armed
Bandits [40.71199236098642]
無限武装バンディット問題では、各アームの平均報酬は未知の分布からサンプリングされる。
我々は、最大以上の分布関数の一般的なクラスを検討し、オフラインとオンラインの両方で統一されたメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-01T18:20:10Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。