論文の概要: PROTO: Iterative Policy Regularized Offline-to-Online Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2305.15669v1
- Date: Thu, 25 May 2023 02:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:53:35.933398
- Title: PROTO: Iterative Policy Regularized Offline-to-Online Reinforcement
Learning
- Title(参考訳): PROTO: オフライン・オンライン強化学習の反復的政策
- Authors: Jianxiong Li, Xiao Hu, Haoran Xu, Jingjing Liu, Xianyuan Zhan, Ya-Qin
Zhang
- Abstract要約: オフライン・オンライン強化学習(RL)は、サンプル効率と政策性能の向上を約束する。
既存の手法は、最適以下の性能、適応性の制限、不満足な計算効率に悩まされている。
本稿では,標準RL目標を反復的に進化する正規化項で拡張する新しいフレームワーク PROTO を提案する。
- 参考スコア(独自算出の注目度): 11.729563922115352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline-to-online reinforcement learning (RL), by combining the benefits of
offline pretraining and online finetuning, promises enhanced sample efficiency
and policy performance. However, existing methods, effective as they are,
suffer from suboptimal performance, limited adaptability, and unsatisfactory
computational efficiency. We propose a novel framework, PROTO, which overcomes
the aforementioned limitations by augmenting the standard RL objective with an
iteratively evolving regularization term. Performing a trust-region-style
update, PROTO yields stable initial finetuning and optimal final performance by
gradually evolving the regularization term to relax the constraint strength. By
adjusting only a few lines of code, PROTO can bridge any offline policy
pretraining and standard off-policy RL finetuning to form a powerful
offline-to-online RL pathway, birthing great adaptability to diverse methods.
Simple yet elegant, PROTO imposes minimal additional computation and enables
highly efficient online finetuning. Extensive experiments demonstrate that
PROTO achieves superior performance over SOTA baselines, offering an adaptable
and efficient offline-to-online RL framework.
- Abstract(参考訳): オフライン-オンライン強化学習(RL)は、オフライン事前学習とオンライン微調整の利点を組み合わせることで、サンプル効率とポリシー性能の向上を約束する。
しかし, 既存の手法は, 最適以下の性能, 適応性に限界があり, 満足できない計算効率に悩まされている。
本稿では,標準RL目標を反復的に進化する正規化項で拡張することにより,上記の制限を克服する新しいフレームワーク PROTO を提案する。
信頼領域スタイルの更新を行うと、PROTOは安定な初期微調整と最適最終性能を得るが、規則化項を徐々に進化させ、制約強度を緩和する。
ほんの数行のコードだけを調整することで、PROTOはオフラインポリシー事前訓練と標準的なオフラインRLファインタニングをブリッジして、オフラインからオフラインまでの強力なRLパスを形成することができ、多様なメソッドに非常に適応できる。
PROTOは単純だがエレガントであり、最小限の追加計算を課す。
大規模な実験により、ProtoはSOTAベースラインよりも優れたパフォーマンスを実現し、適応的で効率的なオフライン-オンラインRLフレームワークを提供する。
関連論文リスト
- Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Sample Efficient Reward Augmentation in offline-to-online Reinforcement
Learning [32.0689406340166]
本稿では,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増大手法を提案する。
SERAはエージェントに対してQ条件付きエントロピーを報酬として計算することで探索を奨励する。
様々なRLアルゴリズムにプラグインすることで、オンラインの微調整を改善し、継続的な改善を保証することができる。
論文 参考訳(メタデータ) (2023-10-07T00:02:05Z) - Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [55.47037858773641]
本稿では,Ensemble-based Offline-to-Online (E2O) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,E2Oは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。