論文の概要: Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions
- arxiv url: http://arxiv.org/abs/2303.17396v1
- Date: Thu, 30 Mar 2023 14:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:21:10.683533
- Title: Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions
- Title(参考訳): オフライン強化学習からの微調整:課題,トレードオフ,実践的解決
- Authors: Yicheng Luo, Jackie Kay, Edward Grefenstette, Marc Peter Deisenroth
- Abstract要約: オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
- 参考スコア(独自算出の注目度): 30.050083797177706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) allows for the training of competent
agents from offline datasets without any interaction with the environment.
Online finetuning of such offline models can further improve performance. But
how should we ideally finetune agents obtained from offline RL training? While
offline RL algorithms can in principle be used for finetuning, in practice,
their online performance improves slowly. In contrast, we show that it is
possible to use standard online off-policy algorithms for faster improvement.
However, we find this approach may suffer from policy collapse, where the
policy undergoes severe performance deterioration during initial online
learning. We investigate the issue of policy collapse and how it relates to
data diversity, algorithm choices and online replay distribution. Based on
these insights, we propose a conservative policy optimization procedure that
can achieve stable and sample-efficient online learning from offline
pretraining.
- Abstract(参考訳): オフライン強化学習(rl)は、環境とのインタラクションなしにオフラインデータセットから有能なエージェントのトレーニングを可能にする。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
しかし、オフラインのRLトレーニングから得られるエージェントをどのように微調整するか?
オフラインのRLアルゴリズムは原則として微調整に使用できるが、実際にはオンラインのパフォーマンスは徐々に改善されている。
対照的に、標準的なオンラインのオフラインアルゴリズムを高速な改善に利用できることを示す。
しかし,この手法は,初期のオンライン学習において,重大なパフォーマンス劣化を招いた政策崩壊に悩まされる可能性がある。
本稿では,政策崩壊の問題とデータ多様性,アルゴリズム選択,オンラインリプレイ分布との関連について検討する。
これらの知見に基づき、オフライン事前学習から安定的でサンプル効率の高いオンライン学習を実現するための保守的なポリシー最適化手法を提案する。
関連論文リスト
- Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。