論文の概要: Sample Efficient Reward Augmentation in offline-to-online Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.19805v3
- Date: Tue, 21 Nov 2023 14:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:28:39.243982
- Title: Sample Efficient Reward Augmentation in offline-to-online Reinforcement
Learning
- Title(参考訳): オフライン-オンライン強化学習におけるサンプル効率向上
- Authors: Ziqi Zhang, Xiao Xiong, Zifeng Zhuang, Jinxin Liu, Donglin Wang
- Abstract要約: 本稿では,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増大手法を提案する。
SERAはエージェントに対してQ条件付きエントロピーを報酬として計算することで探索を奨励する。
様々なRLアルゴリズムにプラグインすることで、オンラインの微調整を改善し、継続的な改善を保証することができる。
- 参考スコア(独自算出の注目度): 32.0689406340166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline-to-online RL can make full use of pre-collected offline datasets to
initialize policies, resulting in higher sample efficiency and better
performance compared to only using online algorithms alone for policy training.
However, direct fine-tuning of the pre-trained policy tends to result in
sub-optimal performance. A primary reason is that conservative offline RL
methods diminish the agent's capability of exploration, thereby impacting
online fine-tuning performance. To encourage agent's exploration during online
fine-tuning and enhance the overall online fine-tuning performance, we propose
a generalized reward augmentation method called Sample Efficient Reward
Augmentation (SERA). Specifically, SERA encourages agent to explore by
computing Q conditioned entropy as intrinsic reward. The advantage of SERA is
that it can extensively utilize offline pre-trained Q to encourage agent
uniformly coverage of state space while considering the imbalance between the
distributions of high-value and low-value states. Additionally, SERA can be
effortlessly plugged into various RL algorithms to improve online fine-tuning
and ensure sustained asymptotic improvement. Moreover, extensive experimental
results demonstrate that when conducting offline-to-online problems, SERA
consistently and effectively enhances the performance of various offline
algorithms.
- Abstract(参考訳): オフラインからオンラインへのrlは、事前収集されたオフラインデータセットをフル活用してポリシを初期化することで、オンラインアルゴリズムのみを使用してポリシトレーニングを行うよりも、サンプル効率とパフォーマンスが向上する。
しかし、事前訓練されたポリシーを直接微調整すると準最適性能が生じる傾向にある。
主な理由は、保守的なオフラインrlメソッドがエージェントの探索能力を低下させ、結果としてオンラインの微調整性能に影響を及ぼすためである。
オンラインファインチューニングにおけるエージェントの探索を奨励し,全体のオンラインファインチューニング性能を高めるため,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増強手法を提案する。
具体的には、q条件エントロピーを内在的な報酬として計算することでエージェントが探索することを推奨する。
SERAの利点は、オフライン事前訓練Qを利用して、高値状態と低値状態の分布の不均衡を考慮して、エージェントが一様に状態空間をカバーできるようにすることである。
さらに、seraは様々なrlアルゴリズムに無益に接続でき、オンラインの微調整を改善し、漸近的な改善を継続することができる。
さらに,オフライン-オンライン問題を行う場合,様々なオフラインアルゴリズムの性能を一貫して効果的に向上させることが実証された。
関連論文リスト
- Online Statistical Inference for Time-varying Sample-averaged Q-learning [2.2374171443798034]
本稿では,バッチ平均Qラーニングの時間変化を,サンプル平均Qラーニングと呼ぶ。
本研究では, サンプル平均化アルゴリズムの正規性について, 温和な条件下での洞察を提供する新しい枠組みを開発する。
古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニングの時間変化は、シングルサンプルQ-ラーニングと定数バッチQ-ラーニングのどちらよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-14T17:17:19Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - The Efficacy of Pessimism in Asynchronous Q-Learning [17.193902915070506]
ペシミズムの原理を非同期Q-ラーニングに組み込んだアルゴリズムフレームワークを開発した。
このフレームワークは、サンプル効率の向上と、ほぼ専門的なデータの存在下での適応性の向上につながります。
我々の結果は、マルコフ的非i.d.データの存在下での悲観主義原理の使用に対する最初の理論的支援を提供する。
論文 参考訳(メタデータ) (2022-03-14T17:59:01Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Aggressive Q-Learning with Ensembles: Achieving Both High Sample
Efficiency and High Asymptotic Performance [12.871109549160389]
本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。
AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
論文 参考訳(メタデータ) (2021-11-17T14:48:52Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。