論文の概要: Sample Efficient Reward Augmentation in offline-to-online Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.19805v3
- Date: Tue, 21 Nov 2023 14:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:28:39.243982
- Title: Sample Efficient Reward Augmentation in offline-to-online Reinforcement
Learning
- Title(参考訳): オフライン-オンライン強化学習におけるサンプル効率向上
- Authors: Ziqi Zhang, Xiao Xiong, Zifeng Zhuang, Jinxin Liu, Donglin Wang
- Abstract要約: 本稿では,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増大手法を提案する。
SERAはエージェントに対してQ条件付きエントロピーを報酬として計算することで探索を奨励する。
様々なRLアルゴリズムにプラグインすることで、オンラインの微調整を改善し、継続的な改善を保証することができる。
- 参考スコア(独自算出の注目度): 32.0689406340166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline-to-online RL can make full use of pre-collected offline datasets to
initialize policies, resulting in higher sample efficiency and better
performance compared to only using online algorithms alone for policy training.
However, direct fine-tuning of the pre-trained policy tends to result in
sub-optimal performance. A primary reason is that conservative offline RL
methods diminish the agent's capability of exploration, thereby impacting
online fine-tuning performance. To encourage agent's exploration during online
fine-tuning and enhance the overall online fine-tuning performance, we propose
a generalized reward augmentation method called Sample Efficient Reward
Augmentation (SERA). Specifically, SERA encourages agent to explore by
computing Q conditioned entropy as intrinsic reward. The advantage of SERA is
that it can extensively utilize offline pre-trained Q to encourage agent
uniformly coverage of state space while considering the imbalance between the
distributions of high-value and low-value states. Additionally, SERA can be
effortlessly plugged into various RL algorithms to improve online fine-tuning
and ensure sustained asymptotic improvement. Moreover, extensive experimental
results demonstrate that when conducting offline-to-online problems, SERA
consistently and effectively enhances the performance of various offline
algorithms.
- Abstract(参考訳): オフラインからオンラインへのrlは、事前収集されたオフラインデータセットをフル活用してポリシを初期化することで、オンラインアルゴリズムのみを使用してポリシトレーニングを行うよりも、サンプル効率とパフォーマンスが向上する。
しかし、事前訓練されたポリシーを直接微調整すると準最適性能が生じる傾向にある。
主な理由は、保守的なオフラインrlメソッドがエージェントの探索能力を低下させ、結果としてオンラインの微調整性能に影響を及ぼすためである。
オンラインファインチューニングにおけるエージェントの探索を奨励し,全体のオンラインファインチューニング性能を高めるため,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増強手法を提案する。
具体的には、q条件エントロピーを内在的な報酬として計算することでエージェントが探索することを推奨する。
SERAの利点は、オフライン事前訓練Qを利用して、高値状態と低値状態の分布の不均衡を考慮して、エージェントが一様に状態空間をカバーできるようにすることである。
さらに、seraは様々なrlアルゴリズムに無益に接続でき、オンラインの微調整を改善し、漸近的な改善を継続することができる。
さらに,オフライン-オンライン問題を行う場合,様々なオフラインアルゴリズムの性能を一貫して効果的に向上させることが実証された。
関連論文リスト
- Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [55.47037858773641]
本稿では,Ensemble-based Offline-to-Online (E2O) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,E2Oは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - PROTO: Iterative Policy Regularized Offline-to-Online Reinforcement
Learning [11.729563922115352]
オフライン・オンライン強化学習(RL)は、サンプル効率と政策性能の向上を約束する。
既存の手法は、最適以下の性能、適応性の制限、不満足な計算効率に悩まされている。
本稿では,標準RL目標を反復的に進化する正規化項で拡張する新しいフレームワーク PROTO を提案する。
論文 参考訳(メタデータ) (2023-05-25T02:40:32Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - MOORe: Model-based Offline-to-Online Reinforcement Learning [26.10368749930102]
モデルに基づくオフライン強化学習(MOORe)アルゴリズムを提案する。
実験結果から,本アルゴリズムはオフラインからオンラインへの移行を円滑に行い,サンプル効率のよいオンライン適応を可能にした。
論文 参考訳(メタデータ) (2022-01-25T03:14:57Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。