論文の概要: Policy Zooming: Adaptive Discretization-based Infinite-Horizon Average-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.18793v2
- Date: Fri, 23 Aug 2024 12:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 19:27:29.370542
- Title: Policy Zooming: Adaptive Discretization-based Infinite-Horizon Average-Reward Reinforcement Learning
- Title(参考訳): ポリシ・ズームング:適応的離散化に基づく無限水平平均逆強化学習
- Authors: Avik Kar, Rahul Singh,
- Abstract要約: 我々は、状態-作用空間を適応的に離散化し、「政治空間」の有望な領域にズームインするアルゴリズムPZRLを開発する。
PZRLの後悔は$tildemathcalObig(T1 - d_texteff.-1big)$とバウンドできることを示す。
- 参考スコア(独自算出の注目度): 2.2984209387877628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study infinite-horizon average-reward reinforcement learning (RL) for Lipschitz MDPs and develop an algorithm PZRL that discretizes the state-action space adaptively and zooms in to promising regions of the "policy space" which seems to yield high average rewards. We show that the regret of PZRL can be bounded as $\tilde{\mathcal{O}}\big(T^{1 - d_{\text{eff.}}^{-1}}\big)$, where $d_{\text{eff.}}= 2d_\mathcal{S} + d^\Phi_z+2$, $d_\mathcal{S}$ is the dimension of the state space, and $d^\Phi_z$ is the zooming dimension. $d^\Phi_z$ is a problem-dependent quantity that depends not only on the underlying MDP but also the class of policies $\Phi$ used by the agent, which allows us to conclude that if the agent apriori knows that optimal policy belongs to a low-complexity class (that has small $d^\Phi_z$), then its regret will be small. The current work shows how to capture adaptivity gains for infinite-horizon average-reward RL in terms of $d^\Phi_z$. We note that the preexisting notions of zooming dimension are adept at handling only the episodic RL case since zooming dimension approaches covering dimension of state-action space as $T\to\infty$ and hence do not yield any possible adaptivity gains. Several experiments are conducted to evaluate the performance of PZRL. PZRL outperforms other state-of-the-art algorithms; this clearly demonstrates the gains arising due to adaptivity.
- Abstract(参考訳): リプシッツ MDP に対する無限水平平均回帰学習(RL)について検討し、状態-作用空間を適応的に離散化し、高い平均報酬をもたらすと思われる「政治空間」の有望な領域にズームインするアルゴリズム PZRL を開発した。
PZRL の後悔は $\tilde{\mathcal{O}}\big(T^{1 - d_{\text{eff.) として表すことができる。
これは$d_{\text{eff.*}^{-1}}\big)$である。
}} = 2d_\mathcal{S} + d^\Phi_z+2$, $d_\mathcal{S}$ は状態空間の次元、$d^\Phi_z$ はズーム次元である。
d^\Phi_z$ は、基礎となる MDP だけでなく、エージェントが使用するポリシーのクラス $\Phi$ にも依存する問題依存量である。
現在の研究は、$d^\Phi_z$ で無限水平平均逆 RL の適応性ゲインを捉える方法を示している。
既存の拡大次元の概念は、状態-作用空間の次元をカバーする拡大次元アプローチが$T\to\infty$として成り立つため、エピソード RL の場合のみを扱うことができ、従って適応性は得られない。
PZRLの性能を評価するためにいくつかの実験を行った。
PZRLは他の最先端アルゴリズムよりも優れており、適応性によって生じる利得を明らかに示している。
関連論文リスト
- Provably Adaptive Average Reward Reinforcement Learning for Metric Spaces [2.2984209387877628]
本研究では、状態-作用空間を適応的に離散化し、状態-作用空間の有望な領域に拡大するアルゴリズムZoRLを開発する。
ZoRLは実験において、他の最先端アルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2024-10-25T18:14:42Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Horizon-free Reinforcement Learning in Adversarial Linear Mixture MDPs [72.40181882916089]
我々のアルゴリズムが $tildeObig((d+log (|mathcalS|2 |mathcalA|))sqrtKbig)$ regret with full-information feedback, where $d$ is the dimension of a known feature mapping is linearly parametrizing the unknown transition kernel of the MDP, $K$ is the number of episodes, $|mathcalS|$ and $|mathcalA|$ is the standardities of the state and action space。
論文 参考訳(メタデータ) (2023-05-15T05:37:32Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Towards Instance-Optimal Offline Reinforcement Learning with Pessimism [34.54294677335518]
我々は、未知マルコフ決定過程(MDP)における報酬最大化ポリシーの学習を目標とするオフライン強化学習(オフラインRL)問題について検討する。
本研究では、適応悲観的値反復法(APVI)アルゴリズムを分析し、[Oleft(sum_h=1Hsum_s_h,a_hdpistar_h(s_h,a_h)sqrtfracmathrmmathrmVar_]とほぼ一致する準最適上限を導出する。
論文 参考訳(メタデータ) (2021-10-17T01:21:52Z) - Policy Optimization in Adversarial MDPs: Improved Exploration via
Dilated Bonuses [40.12297110530343]
我々は、グローバルな探索を容易にするために、ポリシー更新に拡張ボーナスを追加する一般的なソリューションを開発する。
本研究は,敵対的損失と盗聴フィードバックを伴って,複数のエピソードMDP設定に適用する。
シミュレータが利用できない場合、線形 MDP の設定を考慮し、$widetildemathcalO(T14/15)$ regret を得る。
論文 参考訳(メタデータ) (2021-07-18T02:30:48Z) - Agnostic Reinforcement Learning with Low-Rank MDPs and Rich Observations [79.66404989555566]
我々は、リッチな観測空間を持つより現実的な非依存的RLの設定と、近似的ポリシーを含まないような固定されたポリシーのクラス$Pi$を考える。
我々は,MDPの階数$d$の誤差が有界な設定のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:40Z) - Zooming for Efficient Model-Free Reinforcement Learning in Metric Spaces [26.297887542066505]
本研究では,自然距離を持つと仮定される連続的な状態-作用空間を用いたエピソディック強化学習について考察する。
本稿では,連続的な帯域幅からアイデアを生かし,共同空間の適応的離散化を学習するオンラインアルゴリズムZoomRLを提案する。
ZoomRL が最悪の後悔点である $tildeO(Hfrac52 Kfracd+1d+2)$ ここでは$H$ が計画的地平線、$K$ がエピソード数、$d$ が空間の被覆次元であることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。