論文の概要: MOORe: Model-based Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.10070v1
- Date: Tue, 25 Jan 2022 03:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 06:26:57.407406
- Title: MOORe: Model-based Offline-to-Online Reinforcement Learning
- Title(参考訳): MOORe:モデルに基づくオフライン-オンライン強化学習
- Authors: Yihuan Mao, Chao Wang, Bin Wang, Chongjie Zhang
- Abstract要約: モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
- 参考スコア(独自算出の注目度): 26.10368749930102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the success of offline reinforcement learning (RL), offline trained RL
policies have the potential to be further improved when deployed online. A
smooth transfer of the policy matters in safe real-world deployment. Besides,
fast adaptation of the policy plays a vital role in practical online
performance improvement. To tackle these challenges, we propose a simple yet
efficient algorithm, Model-based Offline-to-Online Reinforcement learning
(MOORe), which employs a prioritized sampling scheme that can dynamically
adjust the offline and online data for smooth and efficient online adaptation
of the policy. We provide a theoretical foundation for our algorithms design.
Experiment results on the D4RL benchmark show that our algorithm smoothly
transfers from offline to online stages while enabling sample-efficient online
adaption, and also significantly outperforms existing methods.
- Abstract(参考訳): オフライン強化学習(RL)の成功により、オフライントレーニングされたRLポリシは、オンライン展開時にさらに改善される可能性がある。
安全な実世界の展開において、ポリシーのスムーズな移行が問題となる。
さらに、ポリシーの迅速な適応は、実用的なオンラインパフォーマンス改善において重要な役割を果たす。
そこで本研究では,オフラインとオンラインのデータを動的に調整し,オンライン適応を円滑かつ効率的に行うための優先順位付きサンプリング方式を用いた,簡便かつ効率的なモデルベースオフライン-オンライン強化学習(moore)を提案する。
アルゴリズム設計の理論的基盤を提供する。
D4RLベンチマークの実験結果から,本アルゴリズムはサンプリング効率の高いオンライン適応を実現しつつ,オフラインからオンラインへの移行を円滑に行うとともに,既存の手法よりも大幅に優れていた。
関連論文リスト
- Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL [42.57662196581823]
オフ・ポリティクス強化学習(RL)は、多くの複雑な現実世界のタスクに取り組むことで顕著な成功を収めた。
既存のRLアルゴリズムの多くは、リプレイバッファ内の情報を最大限活用できない。
OBAC(Offline-Boosted Actor-Critic)は、モデルのないオンラインRLフレームワークで、優れたオフラインポリシーをエレガントに識別する。
論文 参考訳(メタデータ) (2024-05-28T18:38:46Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - PROTO: Iterative Policy Regularized Offline-to-Online Reinforcement
Learning [11.729563922115352]
オフライン・オンライン強化学習(RL)は、サンプル効率と政策性能の向上を約束する。
既存の手法は、最適以下の性能、適応性の制限、不満足な計算効率に悩まされている。
本稿では,標準RL目標を反復的に進化する正規化項で拡張する新しいフレームワーク PROTO を提案する。
論文 参考訳(メタデータ) (2023-05-25T02:40:32Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。