論文の概要: Offline Reinforcement Learning with Realizability and Single-policy
Concentrability
- arxiv url: http://arxiv.org/abs/2202.04634v2
- Date: Fri, 11 Feb 2022 17:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 12:34:35.652445
- Title: Offline Reinforcement Learning with Realizability and Single-policy
Concentrability
- Title(参考訳): 実現可能性と単一政策集中性を備えたオフライン強化学習
- Authors: Wenhao Zhan, Baihe Huang, Audrey Huang, Nan Jiang, Jason D. Lee
- Abstract要約: オフライン強化学習のサンプル効率保証は、しばしば関数クラスとデータカバレッジの両方に強い仮定に依存する。
本稿では,2つの変数をオフラインデータに対してオフライン関数を用いてモデル化する,原始双対MDPに基づく単純なアルゴリズムを解析する。
- 参考スコア(独自算出の注目度): 40.15976281104956
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Sample-efficiency guarantees for offline reinforcement learning (RL) often
rely on strong assumptions on both the function classes (e.g.,
Bellman-completeness) and the data coverage (e.g., all-policy concentrability).
Despite the recent efforts on relaxing these assumptions, existing works are
only able to relax one of the two factors, leaving the strong assumption on the
other factor intact. As an important open problem, can we achieve
sample-efficient offline RL with weak assumptions on both factors?
In this paper we answer the question in the positive. We analyze a simple
algorithm based on the primal-dual formulation of MDPs, where the dual
variables (discounted occupancy) are modeled using a density-ratio function
against offline data. With proper regularization, we show that the algorithm
enjoys polynomial sample complexity, under only realizability and single-policy
concentrability. We also provide alternative analyses based on different
assumptions to shed light on the nature of primal-dual algorithms for offline
RL.
- Abstract(参考訳): オフライン強化学習(rl)のためのサンプル効率保証は、しばしば関数クラス(ベルマン完全性など)とデータカバレッジ(例えば、オールポリシー集中性)の両方に強い仮定に依存している。
これらの仮定を緩和する最近の努力にもかかわらず、既存の研究は2つの要因のうちの1つだけを緩和することができ、他の要因に対する強い仮定はそのまま残されている。
重要なオープンな問題として、両方の因子の仮定が弱いサンプル効率のオフラインRLが達成できるだろうか?
本稿では,この疑問に肯定的に答える。
両変数(分散占有率)をオフラインデータに対する密度比関数を用いてモデル化する,MDPの原始双対定式化に基づく単純なアルゴリズムを解析する。
適切な正則化により、このアルゴリズムは、実現可能性と単一政治集中性だけで、多項式のサンプル複雑性を享受できることを示した。
また、オフラインRLに対する原始双対アルゴリズムの性質について、異なる仮定に基づく代替分析を行う。
関連論文リスト
- Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Distributionally Robust Offline Reinforcement Learning with Linear
Function Approximation [16.128778192359327]
我々は、ソース環境から得られた履歴データを用いてRLエージェントを学習し、摂動環境において良好に動作するように最適化する。
我々は、線形関数次元$d$に応じて、我々のアルゴリズムが$O(sqrtK)$の亜最適性を達成できることを証明した。
論文 参考訳(メタデータ) (2022-09-14T13:17:59Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Offline Reinforcement Learning Under Value and Density-Ratio
Realizability: the Power of Gaps [15.277483173402128]
我々は,限界値サンプリングによって生成されたバージョン空間に基づく悲観的アルゴリズムの保証を行う。
我々の研究は、オフライン強化学習におけるギャップ仮定の実用性と新しいメカニズムを最初に特定するものである。
論文 参考訳(メタデータ) (2022-03-25T23:33:38Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。