論文の概要: Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation
for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.03760v2
- Date: Tue, 1 Dec 2020 09:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:20:58.836234
- Title: Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation
for Reinforcement Learning
- Title(参考訳): 強化学習のためのオフライン政策評価におけるほぼ最適確率的一様収束
- Authors: Ming Yin, Yu Bai and Yu-Xiang Wang
- Abstract要約: 強化学習(RL)におけるオフラインポリシー評価は、実生活アプリケーションにRLを適用するための重要なステップである。
ポリシクラス$Pi$ -- OPEの統一収束を同時に評価することで、この問題に対処する。
以上の結果から,モデルベースプランニングにより,$widetildeO(H3/d_mepsilon2)$の最適なエピソード複雑性を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 43.61029925616256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of Offline Policy Evaluation (OPE) in Reinforcement Learning (RL)
is a critical step towards applying RL in real-life applications. Existing work
on OPE mostly focus on evaluating a fixed target policy $\pi$, which does not
provide useful bounds for offline policy learning as $\pi$ will then be
data-dependent. We address this problem by simultaneously evaluating all
policies in a policy class $\Pi$ -- uniform convergence in OPE -- and obtain
nearly optimal error bounds for a number of global / local policy classes. Our
results imply that the model-based planning achieves an optimal episode
complexity of $\widetilde{O}(H^3/d_m\epsilon^2)$ in identifying an
$\epsilon$-optimal policy under the time-inhomogeneous episodic MDP model ($H$
is the planning horizon, $d_m$ is a quantity that reflects the exploration of
the logging policy $\mu$). To the best of our knowledge, this is the first time
the optimal rate is shown to be possible for the offline RL setting and the
paper is the first that systematically investigates the uniform convergence in
OPE.
- Abstract(参考訳): 強化学習(RL)におけるオフライン政策評価(OPE)の問題点は、実生活アプリケーションにRLを適用するための重要なステップである。
既存のopeの作業は、主に固定されたターゲットポリシーを$\pi$で評価することに焦点を当てている。
ポリシクラス$\Pi$ -- OPEの統一収束 -- のすべてのポリシを同時に評価し、グローバル/ローカルなポリシークラスに対してほぼ最適なエラー境界を求めることで、この問題に対処する。
以上の結果から, モデルベースプランニングは, 時間不均一なMDPモデル(H$は計画地平線, $d_m$はロギングポリシーの探索を反映した量)で, $\widetilde{O}(H^3/d_m\epsilon^2)$の最適なエピソード複雑性を実現することが示唆された。
我々の知る限り、オフラインのRL設定において最適な速度が可能であることを示すのはこれが初めてであり、本論文はOPEにおける一様収束を体系的に研究した最初の論文である。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Policy Finetuning: Bridging Sample-Efficient Offline and Online
Reinforcement Learning [59.02541753781001]
本稿では、学習者が「参照ポリシー」にさらにアクセス可能なオンラインRLの政策微調整に関する理論的研究を開始する。
我々はまず、$varepsilon$$widetildeO(H3SCstar/varepsilon2)$のエピソード内で、ほぼ最適ポリシーを求める鋭いオフライン還元アルゴリズムを設計する。
次に、Omega(H3SminCstar, A/varepsilon2)$のサンプル複雑性を、任意のポリシー微調整アルゴリズムに対して低いバウンドで設定します。
論文 参考訳(メタデータ) (2021-06-09T08:28:55Z) - Characterizing Uniform Convergence in Offline Policy Evaluation via
model-based approach: Offline Learning, Task-Agnostic and Reward-Free [34.54294677335518]
オフライン政策評価問題における一様収束の統計的限界(一様OPEの略)とモデルに基づくMDP設定手法について検討する。
本研究の主な成果は,MPPの長期的最適政策に対する$tildeO(H2/d_mepsilon2)$のエピソード複雑性を確立することである。
論文 参考訳(メタデータ) (2021-05-13T01:36:34Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。