論文の概要: A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning
with Low-Rank MDPs
- arxiv url: http://arxiv.org/abs/2402.04493v1
- Date: Wed, 7 Feb 2024 00:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 17:19:39.544784
- Title: A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning
with Low-Rank MDPs
- Title(参考訳): 低ランクMDPを用いたオフライン制約強化学習の2次アルゴリズム
- Authors: Kihyuk Hong, Ambuj Tewari
- Abstract要約: オフライン強化学習(RL)は、事前に収集されたデータセットを使用して期待される累積報酬を最大化するポリシーを学ぶことを目的としている。
サンプル複雑性を持つ既存のアルゴリズムは$O(epsilon-2)$で、$epsilon$-optimal Policyを見つけるには、均一なデータカバレッジの仮定を必要とするか、計算的に非効率である。
割引無限水平設定において、低ランクのMDPを持つオフラインRLの原始双対アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 21.796226854037997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) aims to learn a policy that maximizes the
expected cumulative reward using a pre-collected dataset. Offline RL with
low-rank MDPs or general function approximation has been widely studied
recently, but existing algorithms with sample complexity $O(\epsilon^{-2})$ for
finding an $\epsilon$-optimal policy either require a uniform data coverage
assumptions or are computationally inefficient. In this paper, we propose a
primal dual algorithm for offline RL with low-rank MDPs in the discounted
infinite-horizon setting. Our algorithm is the first computationally efficient
algorithm in this setting that achieves sample complexity of $O(\epsilon^{-2})$
with partial data coverage assumption. This improves upon a recent work that
requires $O(\epsilon^{-4})$ samples. Moreover, our algorithm extends the
previous work to the offline constrained RL setting by supporting constraints
on additional reward signals.
- Abstract(参考訳): オフライン強化学習(RL)は、事前に収集されたデータセットを使用して期待される累積報酬を最大化するポリシーを学ぶことを目的としている。
低ランクのmdpや一般関数近似を持つオフラインrlは近年広く研究されているが、サンプル複雑性を持つ既存のアルゴリズムは$\epsilon$-optimalポリシーを見つけるために$o(\epsilon^{-2})$である。
本稿では,低ランクのMDPを持つオフラインRLに対する,割引無限水平設定における原始双対アルゴリズムを提案する。
本アルゴリズムは,部分的データカバレッジを仮定した$o(\epsilon^{-2})$のサンプル複雑性を実現する,この設定における計算効率の高いアルゴリズムである。
これは、$O(\epsilon^{-4})$サンプルを必要とする最近の作業を改善する。
さらに,提案アルゴリズムは,付加的な報酬信号に対する制約をサポートすることにより,前処理をオフライン制約付きRL設定に拡張する。
関連論文リスト
- Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Locally Differentially Private Reinforcement Learning for Linear Mixture
Markov Decision Processes [78.27542864367821]
強化学習(RL)アルゴリズムは、ユーザのプライベートで機密性の高いデータに依存するパーソナライズされたサービスを提供するために使用することができる。
ユーザのプライバシを保護するために、プライバシ保護RLアルゴリズムが要求されている。
線形混合MDPと呼ばれるマルコフ決定過程(MDP)のクラスを学習するための新しい$(varepsilon, delta)$-LDPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T17:44:09Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Policy Finetuning: Bridging Sample-Efficient Offline and Online
Reinforcement Learning [59.02541753781001]
本稿では、学習者が「参照ポリシー」にさらにアクセス可能なオンラインRLの政策微調整に関する理論的研究を開始する。
我々はまず、$varepsilon$$widetildeO(H3SCstar/varepsilon2)$のエピソード内で、ほぼ最適ポリシーを求める鋭いオフライン還元アルゴリズムを設計する。
次に、Omega(H3SminCstar, A/varepsilon2)$のサンプル複雑性を、任意のポリシー微調整アルゴリズムに対して低いバウンドで設定します。
論文 参考訳(メタデータ) (2021-06-09T08:28:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。