論文の概要: Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.13846v1
- Date: Tue, 25 Oct 2022 09:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 16:02:48.243081
- Title: Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning
- Title(参考訳): オフライン・オンライン強化学習のための適応的行動クローニング規則化
- Authors: Yi Zhao, Rinu Boney, Alexander Ilin, Juho Kannala, Joni Pajarinen
- Abstract要約: オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 80.25648265273155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning, by learning from a fixed dataset, makes it
possible to learn agent behaviors without interacting with the environment.
However, depending on the quality of the offline dataset, such pre-trained
agents may have limited performance and would further need to be fine-tuned
online by interacting with the environment. During online fine-tuning, the
performance of the pre-trained agent may collapse quickly due to the sudden
distribution shift from offline to online data. While constraints enforced by
offline RL methods such as a behaviour cloning loss prevent this to an extent,
these constraints also significantly slow down online fine-tuning by forcing
the agent to stay close to the behavior policy. We propose to adaptively weigh
the behavior cloning loss during online fine-tuning based on the agent's
performance and training stability. Moreover, we use a randomized ensemble of Q
functions to further increase the sample efficiency of online fine-tuning by
performing a large number of learning updates. Experiments show that the
proposed method yields state-of-the-art offline-to-online reinforcement
learning performance on the popular D4RL benchmark. Code is available:
\url{https://github.com/zhaoyi11/adaptive_bc}.
- Abstract(参考訳): オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
しかし、オフラインデータセットの品質によっては、そのような事前訓練されたエージェントは性能が限られており、環境とのインタラクションによってさらに微調整が必要となる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
動作クローニング損失のようなオフラインのRLメソッドによって強制される制約は、これをある程度は防ぐが、エージェントが行動ポリシーに近づき続けるように強制することで、これらの制約はオンラインの微調整を著しく遅くする。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価する。
さらに,q関数のランダム化アンサンブルを用いて,多数の学習更新を行うことで,オンライン微調整のサンプル効率をさらに向上させる。
提案手法は,d4rlベンチマークにおいて最先端のオフライン-オンライン強化学習性能が得られることを示す。
コードは: \url{https://github.com/zhaoyi11/adaptive_bc}.orgで入手できる。
関連論文リスト
- Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。