論文の概要: H2O+: An Improved Framework for Hybrid Offline-and-Online RL with
Dynamics Gaps
- arxiv url: http://arxiv.org/abs/2309.12716v1
- Date: Fri, 22 Sep 2023 08:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 15:09:42.190071
- Title: H2O+: An Improved Framework for Hybrid Offline-and-Online RL with
Dynamics Gaps
- Title(参考訳): H2O+: ダイナミックギャップを備えたハイブリッドオフラインオンラインRLフレームワーク
- Authors: Haoyi Niu, Tianying Ji, Bingqi Liu, Haocheng Zhao, Xiangyu Zhu,
Jianying Zheng, Pengfei Huang, Guyue Zhou, Jianming Hu, Xianyuan Zhan
- Abstract要約: 我々はH2O+と呼ばれる新しいアルゴリズムを開発し、オフラインおよびオンライン学習の様々な選択肢を橋渡しする優れた柔軟性を提供します。
先進的なクロスドメインとオフラインのRLアルゴリズムよりも優れた性能と柔軟性を示す。
- 参考スコア(独自算出の注目度): 31.608209251850553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving real-world complex tasks using reinforcement learning (RL) without
high-fidelity simulation environments or large amounts of offline data can be
quite challenging. Online RL agents trained in imperfect simulation
environments can suffer from severe sim-to-real issues. Offline RL approaches
although bypass the need for simulators, often pose demanding requirements on
the size and quality of the offline datasets. The recently emerged hybrid
offline-and-online RL provides an attractive framework that enables joint use
of limited offline data and imperfect simulator for transferable policy
learning. In this paper, we develop a new algorithm, called H2O+, which offers
great flexibility to bridge various choices of offline and online learning
methods, while also accounting for dynamics gaps between the real and
simulation environment. Through extensive simulation and real-world robotics
experiments, we demonstrate superior performance and flexibility over advanced
cross-domain online and offline RL algorithms.
- Abstract(参考訳): 高忠実度シミュレーション環境や大量のオフラインデータなしで強化学習(rl)を使って、現実世界の複雑なタスクを解決することは、非常に難しい。
不完全なシミュレーション環境で訓練されたオンラインrlエージェントは、深刻なsim-to-real問題に苦しむことがある。
オフラインRLのアプローチはシミュレータの必要性を回避しているが、オフラインデータセットのサイズと品質に関する要求が頻繁に発生する。
最近登場したハイブリッドオフラインオンラインRLは、限られたオフラインデータと、転送可能なポリシー学習のための不完全なシミュレータを併用できる魅力的なフレームワークを提供する。
本稿では,オフラインとオンラインの学習方法の様々な選択を橋渡しするための柔軟性と,実環境とシミュレーション環境のダイナミクスギャップを考慮に入れた,h2o+と呼ばれる新しいアルゴリズムを開発した。
シミュレーションや実世界のロボティクス実験を通じて、高度なクロスドメインオンラインおよびオフラインRLアルゴリズムよりも優れた性能と柔軟性を示す。
関連論文リスト
- A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Benchmarks for Reinforcement Learning with Biased Offline Data and Imperfect Simulators [16.740841615738642]
強化学習におけるオフラインデータと不完全なシミュレータを結合する4つの主な課題を概説する。
これらの課題には、シミュレータモデリングエラー、部分的な可観測性、状態と動作の相違、隠れたコンファウンディングが含まれる。
この結果から,今後の研究におけるベンチマークの必要性が示唆された。
論文 参考訳(メタデータ) (2024-06-30T19:22:59Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient [42.47810044648846]
エージェントがオフラインのデータセットにアクセスでき、実世界のオンラインインタラクションを通じて経験を収集できるハイブリッド強化学習環境(Hybrid RL)を検討する。
従来のQラーニング/イテレーションアルゴリズムをハイブリッド環境に適用し,ハイブリッドQラーニングやHy-Qと呼ぶ。
ニューラルネットワーク関数近似を用いたHy-Qは、挑戦的なベンチマークにおいて、最先端のオンライン、オフライン、ハイブリッドRLベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:19:05Z) - When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online
Reinforcement Learning [7.786094194874359]
本稿では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。
H2Oは動的に認識されたポリシー評価スキームを導入し、大きなダイナミックスギャップを持つシミュレーション状態-作用対上でQ関数学習を適応的にペナルティ化する。
我々は、他のドメイン間のオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-27T17:18:11Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。