論文の概要: Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble
- arxiv url: http://arxiv.org/abs/2107.00591v1
- Date: Thu, 1 Jul 2021 16:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:30:55.101737
- Title: Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble
- Title(参考訳): 平衡再生と悲観的Q-アンサンブルによるオフライン・オンライン強化学習
- Authors: Seunghyun Lee, Younggyo Seo, Kimin Lee, Pieter Abbeel, Jinwoo Shin
- Abstract要約: 深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
- 参考スコア(独自算出の注目度): 135.6115462399788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advance in deep offline reinforcement learning (RL) has made it
possible to train strong robotic agents from offline datasets. However,
depending on the quality of the trained agents and the application being
considered, it is often desirable to fine-tune such agents via further online
interactions. In this paper, we observe that state-action distribution shift
may lead to severe bootstrap error during fine-tuning, which destroys the good
initial policy obtained via offline RL. To address this issue, we first propose
a balanced replay scheme that prioritizes samples encountered online while also
encouraging the use of near-on-policy samples from the offline dataset.
Furthermore, we leverage multiple Q-functions trained pessimistically offline,
thereby preventing overoptimism concerning unfamiliar actions at novel states
during the initial training phase. We show that the proposed method improves
sample-efficiency and final performance of the fine-tuned robotic agents on
various locomotion and manipulation tasks. Our code is available at:
https://github.com/shlee94/Off2OnRL.
- Abstract(参考訳): deep offline reinforcement learning(rl)の最近の進歩により、オフラインデータセットから強力なロボットエージェントをトレーニングできるようになった。
しかし、訓練されたエージェントの品質やアプリケーションの考慮によっては、これらのエージェントをさらなるオンラインインタラクションを通じて微調整することが望ましい場合が多い。
本稿では,状態動作の分散シフトが微調整時のブートストラップエラーを招き,オフラインrlで得られる良質な初期ポリシを損なう可能性があることを観察する。
この問題に対処するために、我々はまずオンラインで遭遇したサンプルを優先するバランスの取れたリプレイスキームを提案し、オフラインデータセットからの準政治サンプルの使用を奨励する。
さらに,悲観的にオフラインで訓練された複数のq関数を利用することにより,初期訓練段階における新規な状態における不慣れな動作に対する過最適化を防止する。
提案手法は,様々な移動・操作作業におけるロボットエージェントのサンプル効率と最終性能を向上させる。
私たちのコードは、https://github.com/shlee94/Off2OnRL.comで利用可能です。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Deploying Offline Reinforcement Learning with Human Feedback [34.11507483049087]
強化学習は、現実世界のアプリケーションで意思決定タスクを約束している。
1つの実践的なフレームワークは、オフラインデータセットからパラメータ化されたポリシーモデルをトレーニングし、それらをオンライン環境にデプロイすることである。
このアプローチは、オフライントレーニングが完璧でない可能性があるため、危険なアクションを取る可能性のあるRLモデルのパフォーマンスが低下する可能性があるため、リスクが伴う可能性がある。
我々は、人間がRLモデルを監督し、オンラインデプロイメントフェーズで追加のフィードバックを提供する代替フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T12:13:16Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。