論文の概要: The Role of Coverage in Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.04157v1
- Date: Sun, 9 Oct 2022 03:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:11:47.974866
- Title: The Role of Coverage in Online Reinforcement Learning
- Title(参考訳): オンライン強化学習におけるカバレッジの役割
- Authors: Tengyang Xie, Dylan J. Foster, Yu Bai, Nan Jiang, Sham M. Kakade
- Abstract要約: 優れたカバレッジを持つデータ分布が存在するだけで、サンプル効率のよいオンラインRLが実現可能であることを示す。
ベルマンランクやベルマン・エルダー次元を含むオンラインRLの既存の複雑さ測定は、カバービリティを最適に捉えることができない。
本稿では,新たな複雑性尺度である逐次外挿係数を提案する。
- 参考スコア(独自算出の注目度): 72.01066664756986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coverage conditions -- which assert that the data logging distribution
adequately covers the state space -- play a fundamental role in determining the
sample complexity of offline reinforcement learning. While such conditions
might seem irrelevant to online reinforcement learning at first glance, we
establish a new connection by showing -- somewhat surprisingly -- that the mere
existence of a data distribution with good coverage can enable sample-efficient
online RL. Concretely, we show that coverability -- that is, existence of a
data distribution that satisfies a ubiquitous coverage condition called
concentrability -- can be viewed as a structural property of the underlying
MDP, and can be exploited by standard algorithms for sample-efficient
exploration, even when the agent does not know said distribution. We complement
this result by proving that several weaker notions of coverage, despite being
sufficient for offline RL, are insufficient for online RL. We also show that
existing complexity measures for online RL, including Bellman rank and
Bellman-Eluder dimension, fail to optimally capture coverability, and propose a
new complexity measure, the sequential extrapolation coefficient, to provide a
unification.
- Abstract(参考訳): カバレッジ条件 -- データロギング分布が状態空間を適切にカバーしていると主張する -- は、オフライン強化学習のサンプル複雑性を決定する上で重要な役割を果たす。
このような状況は、一見してオンライン強化学習とは無関係に思えるかも知れませんが、かなり驚くべきことに、十分なカバレッジを持つデータ分布が存在するだけで、オンラインRLのサンプル効率が向上できることを示して、新たなつながりを確立します。
具体的には、カバー可能性(すなわち、集中性と呼ばれるユビキタスなカバレッジ条件を満たすデータ分布の存在)が、基礎となるMDPの構造特性と見なされ、エージェントがその分布を知らない場合でも、サンプル効率探索のための標準アルゴリズムによって活用できることを示す。
我々は、オフラインrlでは十分であるが、オンラインrlでは不十分であることを示すことにより、この結果を補完する。
また,Bellman ランクや Bellman-Eluder 次元を含むオンライン RL の既存の複雑性尺度では,カバービリティを最適に捉えられず,新たな複雑性尺度であるシーケンシャルな外挿係数を提案する。
関連論文リスト
- Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - What can online reinforcement learning with function approximation
benefit from general coverage conditions? [53.90873926758026]
オンライン強化学習(RL)では、マルコフ決定過程(MDP)の標準的な構造仮定を採用する代わりに、特定のカバレッジ条件を使用するだけで十分である。
本研究は,より可能で一般的なカバレッジ条件を掘り下げることにより,この新たな方向性に焦点をあてる。
我々は、集中度の変化である$Lp$の変動、密度比の実現可能性、部分/レストカバレッジ条件でのトレードオフなど、さらに多くの概念を識別する。
論文 参考訳(メタデータ) (2023-04-25T14:57:59Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。