論文の概要: Regime Switching Bandits
- arxiv url: http://arxiv.org/abs/2001.09390v3
- Date: Mon, 1 Feb 2021 16:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:17:35.351876
- Title: Regime Switching Bandits
- Title(参考訳): レジームスイッチングバンド
- Authors: Xiang Zhou, Yi Xiong, Ningyuan Chen, Xuefeng Gao
- Abstract要約: 本稿では,報酬が政権交代を示すマルチアームバンディット問題について検討する。
すべての腕から生じるランダムな報酬の分布は、有限状態マルコフ連鎖としてモデル化された共通の基底状態によって変調される。
そこで本研究では,隠れマルコフモデルに対するスペクトル法によるモーメント推定に基づく学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.520927473144736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a multi-armed bandit problem where the rewards exhibit regime
switching. Specifically, the distributions of the random rewards generated from
all arms are modulated by a common underlying state modeled as a finite-state
Markov chain. The agent does not observe the underlying state and has to learn
the transition matrix and the reward distributions. We propose a learning
algorithm for this problem, building on spectral method-of-moments estimations
for hidden Markov models, belief error control in partially observable Markov
decision processes and upper-confidence-bound methods for online learning. We
also establish an upper bound $O(T^{2/3}\sqrt{\log T})$ for the proposed
learning algorithm where $T$ is the learning horizon. Finally, we conduct
proof-of-concept experiments to illustrate the performance of the learning
algorithm.
- Abstract(参考訳): 報酬がレジームスイッチングを示すマルチアームバンディット問題について検討する。
特に、すべての腕から生成されるランダム報酬の分布は、有限状態マルコフ連鎖としてモデル化された共通の状態によって変調される。
エージェントは基底状態を観察しず、遷移行列と報酬分布を学習しなければならない。
本稿では,隠れマルコフモデルに対するスペクトル手法推定,部分的に観測可能なマルコフ決定過程における信念誤差制御,オンライン学習のための高信頼度手法に基づく学習アルゴリズムを提案する。
また、t$が学習の地平線である学習アルゴリズムに対して、上限値の$o(t^{2/3}\sqrt{\log t})$を確立する。
最後に,学習アルゴリズムの性能を実証する概念実証実験を行った。
関連論文リスト
- Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文 参考訳(メタデータ) (2023-12-12T14:00:29Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Learning Algorithm Generalization Error Bounds via Auxiliary Distributions [16.44492672878356]
一般化エラー境界は、機械学習モデルがどのように機能するかを理解するのに不可欠である。
そこで本研究では,Auxiliary Distribution Methodという新たな手法を提案する。
論文 参考訳(メタデータ) (2022-10-02T10:37:04Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Sublinear Regret for Learning POMDPs [5.675955495285045]
部分的に観測可能なマルコフ決定過程(POMDP)のためのモデルに基づく非割当強化学習について検討する。
そこで本研究では,隠れマルコフモデルに対するスペクトル法によるモーメント推定に基づく学習アルゴリズムを提案する。
我々は,提案した学習アルゴリズムに対して,$O(T2/3sqrtlog T)$の後悔境界を定め,そこでは$T$が学習の地平線となる。
論文 参考訳(メタデータ) (2021-07-08T06:59:39Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Improving Qubit Readout with Hidden Markov Models [0.0]
量子ビット読み出しのための隠れマルコフモデル(HMM)を用いたパターン認識アルゴリズムの適用例を示す。
このスキームは、キュービット状態遷移を検出することのできる状態パス軌道アプローチを提供する。
論文 参考訳(メタデータ) (2020-05-29T22:49:48Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。