論文の概要: Provably Efficient CVaR RL in Low-rank MDPs
- arxiv url: http://arxiv.org/abs/2311.11965v1
- Date: Mon, 20 Nov 2023 17:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:38:17.035796
- Title: Provably Efficient CVaR RL in Low-rank MDPs
- Title(参考訳): 低位mdpにおける高効率cvar rl
- Authors: Yulai Zhao, Wenhao Zhan, Xiaoyan Hu, Ho-fung Leung, Farzan Farnia, Wen
Sun, Jason D. Lee
- Abstract要約: リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
- 参考スコア(独自算出の注目度): 58.58570425202862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study risk-sensitive Reinforcement Learning (RL), where we aim to maximize
the Conditional Value at Risk (CVaR) with a fixed risk tolerance $\tau$. Prior
theoretical work studying risk-sensitive RL focuses on the tabular Markov
Decision Processes (MDPs) setting. To extend CVaR RL to settings where state
space is large, function approximation must be deployed. We study CVaR RL in
low-rank MDPs with nonlinear function approximation. Low-rank MDPs assume the
underlying transition kernel admits a low-rank decomposition, but unlike prior
linear models, low-rank MDPs do not assume the feature or state-action
representation is known. We propose a novel Upper Confidence Bound (UCB)
bonus-driven algorithm to carefully balance the interplay between exploration,
exploitation, and representation learning in CVaR RL. We prove that our
algorithm achieves a sample complexity of $\tilde{O}\left(\frac{H^7 A^2
d^4}{\tau^2 \epsilon^2}\right)$ to yield an $\epsilon$-optimal CVaR, where $H$
is the length of each episode, $A$ is the capacity of action space, and $d$ is
the dimension of representations. Computational-wise, we design a novel
discretized Least-Squares Value Iteration (LSVI) algorithm for the CVaR
objective as the planning oracle and show that we can find the near-optimal
policy in a polynomial running time with a Maximum Likelihood Estimation
oracle. To our knowledge, this is the first provably efficient CVaR RL
algorithm in low-rank MDPs.
- Abstract(参考訳): リスクに敏感な強化学習(RL)について検討し,リスクに対する条件付き価値(CVaR)を一定のリスク許容率で最大化することを目的とした。
リスク感受性RLの研究以前の理論的研究は、表形式のマルコフ決定過程(MDP)の設定に焦点を当てていた。
CVaR RLを状態空間が大きい設定に拡張するには、関数近似をデプロイする必要がある。
非線形関数近似を用いた低ランクMDPにおけるCVaR RLについて検討した。
低ランクのmdpは、下位の遷移核が低ランク分解を受け入れると仮定するが、以前の線形モデルとは異なり、低ランクのmdpは特徴を仮定しない。
本稿では, CVaR RLにおける探索, エクスプロイト, 表現学習の相互作用を慎重にバランスさせる, 新しいアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
我々は,このアルゴリズムが$\tilde{O}\left(\frac{H^7 A^2 d^4}{\tau^2 \epsilon^2}\right)$で,各エピソードの長さが$H$,アクション空間の容量が$A$であり,$d$が表現の次元であることを示す。
計算学的には,CVaRの目的を計画オラクルとする新たな離散化Last-Squares Value Iteration (LSVI) アルゴリズムを設計し,最大類似度推定オラクルを用いて多項式実行時間内に準最適ポリシーを求めることができることを示す。
我々の知る限り、これは低ランクMDPにおけるCVaR RLアルゴリズムとして初めて証明可能な効率である。
関連論文リスト
- A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards [33.88533898709351]
VIPeRは、ランダム化された値関数のアイデアと悲観主義の原理を一致させる。
オフラインデータを複数回摂動することで、暗黙的に悲観性を得る。
ニューラルネットワーク関数近似を用いた一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である。
論文 参考訳(メタデータ) (2023-02-24T17:52:12Z) - Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds [24.571530193140916]
エントロピーリスク尺度(EntRM)が目的である有限エピソードマルコフ決定過程を考察する。
モデルフリーとモデルベースを含む2つの異なるスキームを用いて最適化を実装する2つの新しいDRLアルゴリズムを提案する。
いずれも$tildemathcalO(fracexp(|beta|H)-1|beta|HsqrtS2AK)$ regret upper bound, where $S$, $A$, $K$, $H$は数値を表す。
論文 参考訳(メタデータ) (2022-10-25T14:30:48Z) - Provably Efficient Risk-Sensitive Reinforcement Learning: Iterated CVaR
and Worst Path [40.4378338001229]
本稿では,各段階における報酬対ゴーのテールを最大化することを目的とした,反復型CVaR RL(Iterated CVaR RL)という,新たなエピソード型リスク感応型強化学習(RL)問題について検討する。
この定式化は、意思決定プロセスを通して強いリスク回避を要求する現実世界のタスクに適用できる。
論文 参考訳(メタデータ) (2022-06-06T15:24:06Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Representation Learning for Online and Offline RL in Low-rank MDPs [36.398511188102205]
我々は、遷移力学が低ランク遷移行列に対応する低ランクマルコフ決定過程(MDP)に焦点を当てる。
FLAMBEで使用されるのと同じオーラクルで操作するオンライン環境では、RLのためのREP-UCBアッパー信頼境界表現学習アルゴリズムを提案する。
オフラインのRL設定では、ペシミズムを利用して部分被覆条件下で学習するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-10-09T22:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。