論文の概要: What are the Statistical Limits of Offline RL with Linear Function
Approximation?
- arxiv url: http://arxiv.org/abs/2010.11895v1
- Date: Thu, 22 Oct 2020 17:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:55:15.714351
- Title: What are the Statistical Limits of Offline RL with Linear Function
Approximation?
- Title(参考訳): 線形関数近似を用いたオフラインrlの統計的限界とは何か?
- Authors: Ruosong Wang, Dean P. Foster, Sham M. Kakade
- Abstract要約: オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
- 参考スコア(独自算出の注目度): 70.33301077240763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning seeks to utilize offline (observational) data
to guide the learning of (causal) sequential decision making strategies. The
hope is that offline reinforcement learning coupled with function approximation
methods (to deal with the curse of dimensionality) can provide a means to help
alleviate the excessive sample complexity burden in modern sequential decision
making problems. However, the extent to which this broader approach can be
effective is not well understood, where the literature largely consists of
sufficient conditions.
This work focuses on the basic question of what are necessary
representational and distributional conditions that permit provable
sample-efficient offline reinforcement learning. Perhaps surprisingly, our main
result shows that even if: i) we have realizability in that the true value
function of \emph{every} policy is linear in a given set of features and 2) our
off-policy data has good coverage over all features (under a strong spectral
condition), then any algorithm still (information-theoretically) requires a
number of offline samples that is exponential in the problem horizon in order
to non-trivially estimate the value of \emph{any} given policy. Our results
highlight that sample-efficient offline policy evaluation is simply not
possible unless significantly stronger conditions hold; such conditions include
either having low distribution shift (where the offline data distribution is
close to the distribution of the policy to be evaluated) or significantly
stronger representational conditions (beyond realizability).
- Abstract(参考訳): オフライン強化学習は、オフライン(オブザーバティブ)データを利用して、(causal)シーケンシャルな意思決定戦略の学習を導く。
オフライン強化学習と(次元の呪いに対処する)関数近似法を組み合わせることで、現代の逐次決定問題における過剰なサンプル複雑性の負担を軽減する手段が得られることを期待する。
しかし、この広範なアプローチが効果的である程度はよく理解されておらず、文学は十分条件から成り立っている。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
意外なことに、我々の主な結果は、もし次のとおりである: i) \emph{every} ポリシーの真値関数が与えられた特徴集合において線型であること、2) オフポリティィデータは(強いスペクトル条件下で)全ての特徴に対して良好なカバレッジを持つこと、そして、(情報理論上)任意のアルゴリズムは、与えられたポリシーの値を非自明に見積もるために問題地平線で指数関数的な多くのオフラインサンプルを必要とすることを示します。
このような条件には、低い分散シフト(オフラインデータ分布が評価すべきポリシーの分布に近くなる)を持つか、より強い表現条件(実現可能性を超える)を持つかのどちらかが含まれる。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation [33.37672297925897]
オフライン政策評価は 強化学習の基本的な統計問題です
古典的手法に必要で十分である単純な制御理論と線形代数的条件を同定する。
この結果から, オフライン政策評価のための線形推定器の挙動の全体像が得られた。
論文 参考訳(メタデータ) (2022-03-08T17:52:57Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。