論文の概要: Bilinear Exponential Family of MDPs: Frequentist Regret Bound with
Tractable Exploration and Planning
- arxiv url: http://arxiv.org/abs/2210.02087v1
- Date: Wed, 5 Oct 2022 08:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:38:00.260697
- Title: Bilinear Exponential Family of MDPs: Frequentist Regret Bound with
Tractable Exploration and Planning
- Title(参考訳): MDPの双線形指数族:トラクタブル探索と計画を伴う周波数レグレト境界
- Authors: Reda Ouhamma (CRIStAL), Debabrota Basu (CRIStAL), Odalric-Ambrym
Maillard (CRIStAL)
- Abstract要約: 本研究では,不確実な報酬と遷移を伴う連続状態行動空間におけるエピソード強化学習の課題について検討する。
我々は,未知のパラメータを学習するために,ペナライズされた最大確率推定器を用いたアルゴリズムBEF-RLSVIを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of episodic reinforcement learning in continuous
state-action spaces with unknown rewards and transitions. Specifically, we
consider the setting where the rewards and transitions are modeled using
parametric bilinear exponential families. We propose an algorithm, BEF-RLSVI,
that a) uses penalized maximum likelihood estimators to learn the unknown
parameters, b) injects a calibrated Gaussian noise in the parameter of rewards
to ensure exploration, and c) leverages linearity of the exponential family
with respect to an underlying RKHS to perform tractable planning. We further
provide a frequentist regret analysis of BEF-RLSVI that yields an upper bound
of $\tilde{\mathcal{O}}(\sqrt{d^3H^3K})$, where $d$ is the dimension of the
parameters, $H$ is the episode length, and $K$ is the number of episodes. Our
analysis improves the existing bounds for the bilinear exponential family of
MDPs by $\sqrt{H}$ and removes the handcrafted clipping deployed in existing
\RLSVI-type algorithms. Our regret bound is order-optimal with respect to $H$
and $K$.
- Abstract(参考訳): 未知の報酬と遷移を伴う連続状態作用空間におけるエピソディック強化学習の問題点について検討する。
具体的には、パラメトリック双線形指数族を用いて報酬と遷移をモデル化する。
我々はBEF-RLSVIというアルゴリズムを提案する。
a) 未知のパラメータを学習するためにペナルダライズされた最大度推定器を使用する。
b) 探査を確実にするために報酬のパラメータに校正されたガウス雑音を注入する
c) 指数系列の根底にあるRKHSに対する線形性を活用して、抽出可能な計画を行う。
さらに、パラメータの次元が$d$、エピソード長が$H$、エピソード数が$K$であるような上限が$\tilde{\mathcal{O}}(\sqrt{d^3H^3K})$となるようなBEF-RLSVIの頻繁な後悔分析も提供する。
解析により,MDP の双線形指数族に対する既存の境界を$\sqrt{H}$ で改善し,既存の \RLSVI 型アルゴリズムで展開された手作りクリッピングを除去する。
我々の後悔の限界は$H$と$K$に関してオーダー最適である。
関連論文リスト
- Settling Constant Regrets in Linear Markov Decision Processes [57.34287648914407]
強化学習(RL)における絶え間ない後悔の保証について検討する。
我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔と高い確率を持つ MDP に対して、$zeta$ が $tildemathcalO(Delta / (sqrtd) 以下であることを仮定する。
論文 参考訳(メタデータ) (2024-04-16T17:23:19Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Efficient Learning in Non-Stationary Linear Markov Decision Processes [17.296084954104415]
非定常線形(低ランク)マルコフ決定過程(MDP)におけるエピソード強化学習の研究
OPT-WLSVI は最小二乗の重み付け値に基づく楽観的なモデルフリーのアルゴリズムであり、指数重み付けを用いて過去のデータをスムーズに忘れる。
我々のアルゴリズムは、各時点で最高のポリシーと競合するときに、$d$$$widetildemathcalO(d5/4H2 Delta1/4 K3/4)$で上限付けられた後悔を実現する。
論文 参考訳(メタデータ) (2020-10-24T11:02:45Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Frequentist Regret Bounds for Randomized Least-Squares Value Iteration [94.47472987987805]
有限水平強化学習(RL)における探索・探索ジレンマの検討
本稿では,ランダム化最小二乗値 (RLSVI) の楽観的な変種を紹介する。
マルコフ決定過程が低ランク遷移ダイナミクスを持つという仮定の下で、RSVIの頻繁な後悔は、$widetilde O(d2 H2 sqrtT)$$ d $ が特徴次元であり、$ H $ が地平線であり、$ T $ が総数であることを示す。
論文 参考訳(メタデータ) (2019-11-01T19:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。