論文の概要: Instabilities of Offline RL with Pre-Trained Neural Representation
- arxiv url: http://arxiv.org/abs/2103.04947v1
- Date: Mon, 8 Mar 2021 18:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 16:06:06.014935
- Title: Instabilities of Offline RL with Pre-Trained Neural Representation
- Title(参考訳): 事前訓練ニューラルネットワークを用いたオフラインRLの不安定性
- Authors: Ruosong Wang, Yifan Wu, Ruslan Salakhutdinov, Sham M. Kakade
- Abstract要約: オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
- 参考スコア(独自算出の注目度): 127.89397629569808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning (RL), we seek to utilize offline data to
evaluate (or learn) policies in scenarios where the data are collected from a
distribution that substantially differs from that of the target policy to be
evaluated. Recent theoretical advances have shown that such sample-efficient
offline RL is indeed possible provided certain strong representational
conditions hold, else there are lower bounds exhibiting exponential error
amplification (in the problem horizon) unless the data collection distribution
has only a mild distribution shift relative to the target policy. This work
studies these issues from an empirical perspective to gauge how stable offline
RL methods are. In particular, our methodology explores these ideas when using
features from pre-trained neural networks, in the hope that these
representations are powerful enough to permit sample efficient offline RL.
Through extensive experiments on a range of tasks, we see that substantial
error amplification does occur even when using such pre-trained representations
(trained on the same task itself); we find offline RL is stable only under
extremely mild distribution shift. The implications of these results, both from
a theoretical and an empirical perspective, are that successful offline RL
(where we seek to go beyond the low distribution shift regime) requires
substantially stronger conditions beyond those which suffice for successful
supervised learning.
- Abstract(参考訳): オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率のよいオフラインRLは、ある強い表現条件が保たれた場合、データ収集分布がターゲットポリシーに対して緩やかな分布シフトしか持たない限り、指数的誤差増幅(問題地平線における)を示す低い境界が存在することを示している。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
特に,本手法では,事前学習したニューラルネットワークの機能を利用することで,これらの表現が効率的なオフラインrlをサンプル化できるほど強力であることを願って,これらのアイデアを探求する。
様々なタスクに関する広範囲な実験を通じて、事前学習された表現(同じタスク自体でトレーニングされている)を使用しても、かなりのエラー増幅が発生することが分かっています。
これらの結果の意味は、理論的にも実証的な観点からも、オフラインRL(ローディストリビューションシフト体制を超えて成功しようとする場合)は、教師付き学習を成功させるのに十分であるものよりも大幅に強い条件を必要とするということです。
関連論文リスト
- Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Offline Reinforcement Learning with Imbalanced Datasets [23.454333727200623]
実世界のオフライン強化学習(RL)データセットは、探索や安全性の考慮が難しいため、状態空間上で不均衡になることが多い。
保守的なQ-ラーニング(CQL)のような分散制約に基づくオフラインのRL手法は、不均衡なデータセットの下でポリシーを抽出するのに効果がないことを示す。
自然知性に触発されて、CQLの強化と検索プロセスを利用して、過去の経験を思い出す新しいオフラインRL法を提案する。
論文 参考訳(メタデータ) (2023-07-06T03:22:19Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - The Role of Coverage in Online Reinforcement Learning [72.01066664756986]
優れたカバレッジを持つデータ分布が存在するだけで、サンプル効率のよいオンラインRLが実現可能であることを示す。
ベルマンランクやベルマン・エルダー次元を含むオンラインRLの既存の複雑さ測定は、カバービリティを最適に捉えることができない。
本稿では,新たな複雑性尺度である逐次外挿係数を提案する。
論文 参考訳(メタデータ) (2022-10-09T03:50:05Z) - On the Role of Discount Factor in Offline Reinforcement Learning [25.647624787936028]
割引係数である$gamma$は、オンラインRLサンプル効率と推定精度を改善する上で重要な役割を果たす。
本稿では、理論解析によるオフラインRLにおける$gamma$の2つの異なる効果について検討する。
その結果, オフラインRLアルゴリズムの性能において, 割引係数が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2022-06-07T15:22:42Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。