論文の概要: When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.13464v1
- Date: Mon, 27 Jun 2022 17:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 14:07:12.334499
- Title: When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online
Reinforcement Learning
- Title(参考訳): シミュレータをいつ信頼するか:dynamics-aware hybrid offline-and-online reinforcement learning
- Authors: Haoyi Niu, Shubham Sharma, Yiwen Qiu, Ming Li, Guyue Zhou, Jianming
Hu, Xianyuan Zhan
- Abstract要約: 本稿では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。
H2Oは動的に認識されたポリシー評価スキームを導入し、大きなダイナミックスギャップを持つシミュレーション状態-作用対上でQ関数学習を適応的にペナルティ化する。
我々は、他のドメイン間のオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。
- 参考スコア(独自算出の注目度): 7.786094194874359
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning effective reinforcement learning (RL) policies to solve real-world
complex tasks can be quite challenging without a high-fidelity simulation
environment. In most cases, we are only given imperfect simulators with
simplified dynamics, which inevitably lead to severe sim-to-real gaps in RL
policy learning. The recently emerged field of offline RL provides another
possibility to learn policies directly from pre-collected historical data.
However, to achieve reasonable performance, existing offline RL algorithms need
impractically large offline data with sufficient state-action space coverage
for training. This brings up a new question: is it possible to combine learning
from limited real data in offline RL and unrestricted exploration through
imperfect simulators in online RL to address the drawbacks of both approaches?
In this study, we propose the Dynamics-Aware Hybrid Offline-and-Online
Reinforcement Learning (H2O) framework to provide an affirmative answer to this
question. H2O introduces a dynamics-aware policy evaluation scheme, which
adaptively penalizes the Q function learning on simulated state-action pairs
with large dynamics gaps, while also simultaneously allowing learning from a
fixed real-world dataset. Through extensive simulation and real-world tasks, as
well as theoretical analysis, we demonstrate the superior performance of H2O
against other cross-domain online and offline RL algorithms. H2O provides a
brand new hybrid offline-and-online RL paradigm, which can potentially shed
light on future RL algorithm design for solving practical real-world tasks.
- Abstract(参考訳): 実世界の複雑なタスクを解くための効果的な強化学習(RL)ポリシーを学習することは、高忠実なシミュレーション環境なしでは極めて困難である。
ほとんどの場合、単純化されたダイナミクスを備えた不完全なシミュレータしか与えられず、それは必然的にrlポリシー学習の厳しいsim対現実のギャップにつながる。
最近登場したオフラインrlの分野は、事前収集された履歴データから直接ポリシーを学ぶことができる。
しかし、適切な性能を達成するために、既存のオフラインRLアルゴリズムは、トレーニングに十分な状態-動作空間のカバレッジを備えた、急激な大規模なオフラインデータを必要とする。
オフラインRLにおける制限された実データからの学習と、オンラインRLにおける不完全なシミュレータによる無制限探索を組み合わせて、両方のアプローチの欠点に対処することは可能か?
本研究では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。
H2Oは動的ポリシー評価スキームを導入し、これはQ関数学習を、大きなダイナミックスギャップを持つシミュレーション状態-アクションペア上で適応的にペナルティ化すると同時に、固定された実世界のデータセットからの学習を可能にする。
シミュレーションや実世界のタスク、理論的解析を通じて、他のクロスドメインオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。
H2Oは、新しいハイブリッドオフラインおよびオンラインRLパラダイムを提供し、実用的な現実世界のタスクを解決するための将来のRLアルゴリズム設計に光を当てる可能性がある。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - H2O+: An Improved Framework for Hybrid Offline-and-Online RL with
Dynamics Gaps [31.608209251850553]
我々はH2O+と呼ばれる新しいアルゴリズムを開発し、オフラインおよびオンライン学習の様々な選択肢を橋渡しする優れた柔軟性を提供します。
先進的なクロスドメインとオフラインのRLアルゴリズムよりも優れた性能と柔軟性を示す。
論文 参考訳(メタデータ) (2023-09-22T08:58:22Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Using Offline Data to Speed-up Reinforcement Learning in Procedurally
Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。
1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文 参考訳(メタデータ) (2023-04-18T16:23:15Z) - Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient [42.47810044648846]
エージェントがオフラインのデータセットにアクセスでき、実世界のオンラインインタラクションを通じて経験を収集できるハイブリッド強化学習環境(Hybrid RL)を検討する。
従来のQラーニング/イテレーションアルゴリズムをハイブリッド環境に適用し,ハイブリッドQラーニングやHy-Qと呼ぶ。
ニューラルネットワーク関数近似を用いたHy-Qは、挑戦的なベンチマークにおいて、最先端のオンライン、オフライン、ハイブリッドRLベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:19:05Z) - Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement
Learning [0.8399688944263843]
深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。
Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。
本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:27:01Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。