論文の概要: Offline Reinforcement Learning Under Value and Density-Ratio
Realizability: the Power of Gaps
- arxiv url: http://arxiv.org/abs/2203.13935v1
- Date: Fri, 25 Mar 2022 23:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 13:40:44.501536
- Title: Offline Reinforcement Learning Under Value and Density-Ratio
Realizability: the Power of Gaps
- Title(参考訳): 価値と密度比を考慮したオフライン強化学習:ギャップのパワー
- Authors: Jinglin Chen, Nan Jiang
- Abstract要約: 我々は,限界値サンプリングによって生成されたバージョン空間に基づく悲観的アルゴリズムの保証を行う。
我々の研究は、オフライン強化学習におけるギャップ仮定の実用性と新しいメカニズムを最初に特定するものである。
- 参考スコア(独自算出の注目度): 15.277483173402128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a challenging theoretical problem in offline reinforcement
learning (RL): obtaining sample-efficiency guarantees with a dataset lacking
sufficient coverage, under only realizability-type assumptions for the function
approximators. While the existing theory has addressed learning under
realizability and under non-exploratory data separately, no work has been able
to address both simultaneously (except for a concurrent work which we compare
to in detail). Under an additional gap assumption, we provide guarantees to a
simple pessimistic algorithm based on a version space formed by marginalized
importance sampling, and the guarantee only requires the data to cover the
optimal policy and the function classes to realize the optimal value and
density-ratio functions. While similar gap assumptions have been used in other
areas of RL theory, our work is the first to identify the utility and the novel
mechanism of gap assumptions in offline RL.
- Abstract(参考訳): オフライン強化学習(RL)において、十分なカバレッジを欠いたデータセットを用いてサンプル効率保証を得るという難解な理論的問題を考える。
既存の理論では、実現可能性と非探索データの両方の下での学習を別々に扱っているが、両方を同時に扱うことはできない(我々が詳細に比較した並行処理を除く)。
余分な重要度サンプリングによって形成されるバージョン空間に基づく単純な悲観的アルゴリズムの保証を提供するとともに、その保証は最適なポリシーと関数クラスをカバーし、最適な値と密度比関数を実現するためにデータのみを必要とする。
同様のギャップ仮定はRL理論の他の領域で使用されているが、我々の研究は、オフラインRLにおけるギャップ仮定の実用性と新しいメカニズムを最初に特定するものである。
関連論文リスト
- Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - The Role of Coverage in Online Reinforcement Learning [72.01066664756986]
優れたカバレッジを持つデータ分布が存在するだけで、サンプル効率のよいオンラインRLが実現可能であることを示す。
ベルマンランクやベルマン・エルダー次元を含むオンラインRLの既存の複雑さ測定は、カバービリティを最適に捉えることができない。
本稿では,新たな複雑性尺度である逐次外挿係数を提案する。
論文 参考訳(メタデータ) (2022-10-09T03:50:05Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Offline Reinforcement Learning with Realizability and Single-policy
Concentrability [40.15976281104956]
オフライン強化学習のサンプル効率保証は、しばしば関数クラスとデータカバレッジの両方に強い仮定に依存する。
本稿では,2つの変数をオフラインデータに対してオフライン関数を用いてモデル化する,原始双対MDPに基づく単純なアルゴリズムを解析する。
論文 参考訳(メタデータ) (2022-02-09T18:51:24Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。