論文の概要: Restless Bandits with Average Reward: Breaking the Uniform Global
Attractor Assumption
- arxiv url: http://arxiv.org/abs/2306.00196v1
- Date: Wed, 31 May 2023 21:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:18:57.334522
- Title: Restless Bandits with Average Reward: Breaking the Uniform Global
Attractor Assumption
- Title(参考訳): 平均的リワードを伴うレストレスバンド:一様グローバルアトラクタの推計を破る
- Authors: Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang
- Abstract要約: 離散時間と連続時間の両方の設定で平均報酬基準を用いた無限水平レスバンドイット問題について検討する。
我々は,任意の単一武器政策を元の$N$武器問題に対するポリシーに変換する,汎用的なシミュレーションベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.834523947841443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the infinite-horizon restless bandit problem with the average reward
criterion, under both discrete-time and continuous-time settings. A fundamental
question is how to design computationally efficient policies that achieve a
diminishing optimality gap as the number of arms, $N$, grows large. Existing
results on asymptotical optimality all rely on the uniform global attractor
property (UGAP), a complex and challenging-to-verify assumption. In this paper,
we propose a general, simulation-based framework that converts any single-armed
policy into a policy for the original $N$-armed problem. This is accomplished
by simulating the single-armed policy on each arm and carefully steering the
real state towards the simulated state. Our framework can be instantiated to
produce a policy with an $O(1/\sqrt{N})$ optimality gap. In the discrete-time
setting, our result holds under a simpler synchronization assumption, which
covers some problem instances that do not satisfy UGAP. More notably, in the
continuous-time setting, our result does not require any additional assumptions
beyond the standard unichain condition. In both settings, we establish the
first asymptotic optimality result that does not require UGAP.
- Abstract(参考訳): 平均報酬基準による無限ホリゾンレストレスト・バンディット問題を離散時間と連続時間の両方の設定で検討した。
基本的な問題は、腕の数($n$)が大きくなるにつれて最適なギャップを減少させる計算効率のよいポリシーをどのように設計するかである。
漸近的最適性に関する既存の結果は、すべて一様大域的誘引特性(UGAP)に依存している。
そこで,本論文では,単一武装の方針を元来のn$-armed問題に対する方針に変換する汎用的なシミュレーションベースのフレームワークを提案する。
これは、各腕に単一武装のポリシーをシミュレートし、実状態をシミュレートされた状態に向けて慎重に操ることで達成される。
我々のフレームワークは、$O(1/\sqrt{N})$Optimity gapでポリシーを生成するためにインスタンス化することができる。
離散時間設定では、UGAPを満たさないいくつかの問題事例をカバーする、単純な同期仮定の下で結果が成り立つ。
より注目すべきは、連続時間設定において、我々の結果は標準単鎖条件を超える追加の仮定を必要としないことである。
どちらの設定でも、UGAPを必要としない最初の漸近的最適性結果を確立する。
関連論文リスト
- Model Predictive Control is Almost Optimal for Restless Bandit [2.295863158976069]
離散時間無限水平平均報酬(RMAB)問題を考える。
本稿では, 回転型計算水平方向を$tau$とする非定常ポリシーを提案する。
局所安定性条件下では、その部分最適性ギャップは一般に$O(1/sqrtN)$、$exp(-Omega(N))$である。
論文 参考訳(メタデータ) (2024-10-08T19:34:23Z) - Achieving Exponential Asymptotic Optimality in Average-Reward Restless Bandits without Global Attractor Assumption [11.41663079285674]
両腕の動的部分集合を2つ維持する新しいアンフツーセットポリシーを提案する。
2組のポリシーは、$O(exp(-C N)$Optimity gap for a $N$-armed problem で最適であることを示す。
論文 参考訳(メタデータ) (2024-05-28T07:08:29Z) - Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits [11.41663079285674]
我々のポリシーは、$O(1/sqrtN)$Optimity gap for a $N$-armed problemで最適であることを示す。
当社のアプローチは、インデックスや優先順位ポリシーに重点を置く既存の作業から逸脱しています。
論文 参考訳(メタデータ) (2024-02-08T14:07:20Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Restless Bandits with Many Arms: Beating the Central Limit Theorem [25.639496138046546]
有限ホライズン・レスト・ブレイディット(有限ホライズン・レスト・ブレイディット)は、レコメンデーターシステム、アクティブラーニング、収益管理、その他多くの分野で重要な役割を果たしている。
最適ポリシーは、原理的には動的プログラミングを用いて計算できるが、計算に必要なスケールは腕数$N$で指数関数的にスケールする。
最適性ギャップが$O(1)$である流体プライオリティポリシと呼ばれる、非退化条件と、実用的に計算可能な新しいポリシーのクラスを特徴付ける。
論文 参考訳(メタデータ) (2021-07-25T23:27:12Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。