論文の概要: Offline Primal-Dual Reinforcement Learning for Linear MDPs
- arxiv url: http://arxiv.org/abs/2305.12944v1
- Date: Mon, 22 May 2023 11:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:33:01.634101
- Title: Offline Primal-Dual Reinforcement Learning for Linear MDPs
- Title(参考訳): リニアMDPのオフライン2次元強化学習
- Authors: Germano Gabbianelli, Gergely Neu, Nneka Okolo, Matteo Papini
- Abstract要約: オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
- 参考スコア(独自算出の注目度): 16.782625445546273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) aims to learn a near-optimal policy from
a fixed dataset of transitions collected by another policy. This problem has
attracted a lot of attention recently, but most existing methods with strong
theoretical guarantees are restricted to finite-horizon or tabular settings. In
constrast, few algorithms for infinite-horizon settings with function
approximation and minimal assumptions on the dataset are both sample and
computationally efficient. Another gap in the current literature is the lack of
theoretical analysis for the average-reward setting, which is more challenging
than the discounted setting. In this paper, we address both of these issues by
proposing a primal-dual optimization method based on the linear programming
formulation of RL. Our key contribution is a new reparametrization that allows
us to derive low-variance gradient estimators that can be used in a stochastic
optimization scheme using only samples from the behavior policy. Our method
finds an $\varepsilon$-optimal policy with $O(\varepsilon^{-4})$ samples,
improving on the previous $O(\varepsilon^{-5})$, while being computationally
efficient for infinite-horizon discounted and average-reward MDPs with
realizable linear function approximation and partial coverage. Moreover, to the
best of our knowledge, this is the first theoretical result for average-reward
offline RL.
- Abstract(参考訳): オフライン強化学習(rl)は、他のポリシが収集した移行の固定データセットから、ほぼ最適に近いポリシを学ぶことを目的としている。
この問題は近年注目されているが、理論的な保証が強い既存の方法のほとんどは有限水平または表の設定に限られている。
constrastでは、関数近似とデータセット上の最小仮定を持つ無限ホリゾン設定のアルゴリズムは、サンプルと計算効率の両方が優れている。
現在の文献のもう1つのギャップは、平均後退設定の理論的解析の欠如であり、これはディスカウント設定よりも難しい。
本稿では,RLの線形計画法に基づく原始双対最適化手法を提案することにより,これらの問題に対処する。
我々の重要な貢献は、振る舞いポリシーからのサンプルのみを用いて確率最適化スキームで使用できる低分散勾配推定器を導出できる新しい再パラメータ化である。
提案手法では,$O(\varepsilon^{-4})$サンプルを用いて,従来の$O(\varepsilon^{-5})$よりも高効率な$O(\varepsilon^{-5})$に対して,線形関数近似と部分被覆を実現可能な線形関数近似と平均回帰 MDP に対して計算効率がよい。
さらに、我々の知る限りでは、これは平均逆オフラインRLに対する最初の理論的結果である。
関連論文リスト
- A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Linear MDPs [18.449996575976993]
無限水平割引設定における線形 MDP を用いたオフライン RL の原始双対アルゴリズムを提案する。
本アルゴリズムは, 部分的データカバレッジを仮定した$O(epsilon-2)$のサンプル複雑性を実現するアルゴリズムとして, この設定において, 計算効率のよい最初のアルゴリズムである。
我々はアルゴリズムをオフラインの制約付きRL設定で動作させ、追加の報酬信号に制約を課すように拡張する。
論文 参考訳(メタデータ) (2024-02-07T00:33:11Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Near-Optimal Offline Reinforcement Learning via Double Variance
Reduction [36.027428493021716]
Off-Policy Double Variance Reductionは、オフラインRLのための分散化に基づく新しいアルゴリズムである。
OPDVRは$widetildeO(H2/d_mepsilon2)$ episodes of offline dataで$epsilon$-optimal Policyを確実に特定している。
また、OPDVRは、代替設定下でのレート最適化サンプルの複雑さも達成できることを示す。
論文 参考訳(メタデータ) (2021-02-02T20:47:35Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。