論文の概要: OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.13611v3
- Date: Tue, 4 May 2021 19:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:42:37.438218
- Title: OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning
- Title(参考訳): opal: オフライン強化学習を加速するためのオフラインプリミティブディスカバリ
- Authors: Anurag Ajay, Aviral Kumar, Pulkit Agrawal, Sergey Levine, Ofir Nachum
- Abstract要約: エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
- 参考スコア(独自算出の注目度): 107.6943868812716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved impressive performance in a variety
of online settings in which an agent's ability to query the environment for
transitions and rewards is effectively unlimited. However, in many practical
applications, the situation is reversed: an agent may have access to large
amounts of undirected offline experience data, while access to the online
environment is severely limited. In this work, we focus on this offline
setting. Our main insight is that, when presented with offline data composed of
a variety of behaviors, an effective way to leverage this data is to extract a
continuous space of recurring and temporally extended primitive behaviors
before using these primitives for downstream task learning. Primitives
extracted in this way serve two purposes: they delineate the behaviors that are
supported by the data from those that are not, making them useful for avoiding
distributional shift in offline RL; and they provide a degree of temporal
abstraction, which reduces the effective horizon yielding better learning in
theory, and improved offline RL in practice. In addition to benefiting offline
policy optimization, we show that performing offline primitive learning in this
way can also be leveraged for improving few-shot imitation learning as well as
exploration and transfer in online RL on a variety of benchmark domains.
Visualizations are available at https://sites.google.com/view/opal-iclr
- Abstract(参考訳): 強化学習(rl)は、エージェントがトランジションや報酬を環境に問い合わせる能力が事実上無制限である様々なオンライン環境において、印象的なパフォーマンスを達成している。
しかし、多くの実用的なアプリケーションでは、状況は逆転する。エージェントは大量の無指示のオフライン体験データにアクセスできるが、オンライン環境へのアクセスは極めて制限されている。
この作業では、オフライン設定に集中します。
このデータを活用する効果的な方法は、これらのプリミティブを下流のタスク学習に使用する前に、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
この方法で抽出されたプリミティブは、2つの目的を果たす: それらは、データによって支えられている動作を、オフラインRLの分布シフトを避けるのに有用である、そして、時間的抽象化の度合いを提供し、理論におけるより良い学習をもたらす効果的な水平線を減らし、実際にオフラインRLを改善している。
オフラインポリシ最適化のメリットに加えて、この方法でオフラインプリミティブ学習を行うことは、少数ショットの模倣学習の改善や、さまざまなベンチマークドメインでのオンラインRLの探索と転送にも有効であることを示す。
視覚化はhttps://sites.google.com/view/opal-iclrで確認できる。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Flow to Control: Offline Reinforcement Learning with Lossless Primitive
Discovery [31.49638957903016]
オフライン強化学習(RL)により、エージェントはログデータから効果的に学習することができる。
提案手法はポリシーの表現能力に優れ,多くのタスクにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-12-02T11:35:51Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Offline RL With Resource Constrained Online Deployment [13.61540280864938]
オフライン強化学習は、環境へのリアルタイムアクセスが高価または不可能なシナリオでポリシーをトレーニングするために使用される。
本研究は,新たな資源制約問題設定を導入し,定式化する。
完全なオフラインデータセットを使用してトレーニングされたポリシと、限定された機能を使用してトレーニングされたポリシとの間のパフォーマンスギャップを強調します。
論文 参考訳(メタデータ) (2021-10-07T03:43:09Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。