論文の概要: Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation
- arxiv url: http://arxiv.org/abs/2111.10919v1
- Date: Sun, 21 Nov 2021 23:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 14:04:23.565071
- Title: Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation
- Title(参考訳): オフライン強化学習: 値関数近似の基本的な障壁
- Authors: Dylan J. Foster, Akshay Krishnamurthy, David Simchi-Levi, Yunzong Xu
- Abstract要約: 本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 74.3002974673248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the offline reinforcement learning problem, where the aim is to
learn a decision making policy from logged data. Offline RL -- particularly
when coupled with (value) function approximation to allow for generalization in
large or continuous state spaces -- is becoming increasingly relevant in
practice, because it avoids costly and time-consuming online data collection
and is well suited to safety-critical domains. Existing sample complexity
guarantees for offline value function approximation methods typically require
both (1) distributional assumptions (i.e., good coverage) and (2)
representational assumptions (i.e., ability to represent some or all $Q$-value
functions) stronger than what is required for supervised learning. However, the
necessity of these conditions and the fundamental limits of offline RL are not
well understood in spite of decades of research. This led Chen and Jiang (2019)
to conjecture that concentrability (the most standard notion of coverage) and
realizability (the weakest representation condition) alone are not sufficient
for sample-efficient offline RL. We resolve this conjecture in the positive by
proving that in general, even if both concentrability and realizability are
satisfied, any algorithm requires sample complexity polynomial in the size of
the state space to learn a non-trivial policy.
Our results show that sample-efficient offline reinforcement learning
requires either restrictive coverage conditions or representation conditions
that go beyond supervised learning, and highlight a phenomenon called
over-coverage which serves as a fundamental barrier for offline value function
approximation methods. A consequence of our results for reinforcement learning
with linear function approximation is that the separation between online and
offline RL can be arbitrarily large, even in constant dimension.
- Abstract(参考訳): 我々は,ログデータから意思決定方針を学ぶことを目的とした,オフライン強化学習問題を考える。
オフラインRL – 特に(値)関数近似と組み合わせて、大規模あるいは連続的な状態空間での一般化を可能にする – は、コストと時間のかかるオンラインデータ収集を回避し、安全クリティカルなドメインに適しているため、実際にはますます関連性が高まっている。
オフライン値関数近似法に対する既存のサンプル複雑性の保証は、(1)分布的仮定(すなわち、良いカバレッジ)と(2)表象的仮定(例えば、いくつかの$q$-値関数を表す能力)の両方を必要とする。
しかし、これらの条件の必要性とオフラインRLの基本的な限界は、数十年の研究にもかかわらずよく理解されていない。
これにより、Chen と Jiang (2019) は、集中可能性(カバレッジの最も標準的な概念)と実現可能性(最も弱い表現条件)だけではサンプル効率の悪いオフライン RL には十分でないと推測した。
一般に、集中性と実現可能性の両方が満たされたとしても、任意のアルゴリズムは非自明なポリシーを学ぶために状態空間の大きさのサンプル複雑性多項式を必要とすることを証明して、この予想を正に解決する。
その結果,サンプル効率の良いオフライン強化学習では,教師付き学習を超越した限定的カバレッジ条件や表現条件が必要となり,オフライン値関数近似手法の基本的な障壁となるオーバーカバーと呼ばれる現象が浮き彫りになる。
線形関数近似を用いた強化学習の結果,オンラインrlとオフラインrlの分離は一定次元においても任意に大きくなることがわかった。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - The Role of Coverage in Online Reinforcement Learning [72.01066664756986]
優れたカバレッジを持つデータ分布が存在するだけで、サンプル効率のよいオンラインRLが実現可能であることを示す。
ベルマンランクやベルマン・エルダー次元を含むオンラインRLの既存の複雑さ測定は、カバービリティを最適に捉えることができない。
本稿では,新たな複雑性尺度である逐次外挿係数を提案する。
論文 参考訳(メタデータ) (2022-10-09T03:50:05Z) - Offline Reinforcement Learning Under Value and Density-Ratio
Realizability: the Power of Gaps [15.277483173402128]
我々は,限界値サンプリングによって生成されたバージョン空間に基づく悲観的アルゴリズムの保証を行う。
我々の研究は、オフライン強化学習におけるギャップ仮定の実用性と新しいメカニズムを最初に特定するものである。
論文 参考訳(メタデータ) (2022-03-25T23:33:38Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。