論文の概要: Sample Efficient Reward Augmentation in offline-to-online Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2310.19805v2
- Date: Fri, 10 Nov 2023 12:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 17:11:05.798500
- Title: Sample Efficient Reward Augmentation in offline-to-online Reinforcement
Learning
- Title(参考訳): オフライン-オンライン強化学習におけるサンプル効率向上
- Authors: Ziqi Zhang, Xiao Xiong, Zifeng Zhuang, Jinxin Liu, Donglin Wang
- Abstract要約: SERA(Sample Efficient Reward Augmentation)と呼ばれる一般報酬増強フレームワーク
SERAは、エージェントが探索することを奨励する本質的な報酬を設計することで、オンラインファインチューニングのパフォーマンスを向上させることを目的としている。
SERAは、オンラインの微調整を改善し、持続的な改善を保証するために、様々なRLアルゴリズムに懸命に接続することができる。
- 参考スコア(独自算出の注目度): 32.0689406340166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A prospective application of offline reinforcement learning (RL) involves
initializing a pre-trained policy using existing static datasets for subsequent
online fine-tuning. However, direct fine-tuning of the offline pre-trained
policy often results in sub-optimal performance. A primary reason is that
offline conservative methods diminish the agent's capability of exploration,
thereby impacting online fine-tuning performance. To enhance exploration during
online fine-tuning and thus enhance the overall online fine-tuning performance,
we introduce a generalized reward augmentation framework called Sample
Efficient Reward Augmentation (SERA). SERA aims to improve the performance of
online fine-tuning by designing intrinsic rewards that encourage the agent to
explore. Specifically, it implicitly implements State Marginal Matching (SMM)
and penalizes out-of-distribution (OOD) state actions, thus encouraging agents
to cover the target state density, and achieving better online fine-tuning
results. Additionally, SERA can be effortlessly plugged into various RL
algorithms to improve online fine-tuning and ensure sustained asymptotic
improvement, showing the versatility as well as the effectiveness of SERA.
Moreover, extensive experimental results will demonstrate that when conducting
offline-to-online problems, SERA consistently and effectively enhances the
performance of various offline algorithms.
- Abstract(参考訳): オフライン強化学習(RL)の先進的な応用は、既存の静的データセットを使用してトレーニング済みのポリシーを初期化することである。
しかし、オフライン事前訓練されたポリシーを直接微調整することは、しばしば準最適性能をもたらす。
主な理由は、オフラインの保守的手法によってエージェントの探索能力が低下し、オンラインの微調整性能に影響を及ぼすためである。
オンラインファインチューニングにおける探索の強化と,オンラインのファインチューニング性能の向上を目的として,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増強フレームワークを導入する。
seraは、エージェントの探索を促す固有の報酬を設計することによって、オンラインの微調整のパフォーマンスを向上させることを目指している。
具体的には、暗黙的にstate marginal matching(smm)を実装し、out-of-distribution(ood)状態アクションを罰する。
さらに、seraは様々なrlアルゴリズムに無益に接続でき、オンラインの微調整を改善し、非漸近的な改善を持続的に行うことができる。
さらに,オフライン-オンライン問題を行う場合,様々なオフラインアルゴリズムの性能を一貫して効果的に向上させることが実証される。
関連論文リスト
- Online Statistical Inference for Time-varying Sample-averaged Q-learning [2.2374171443798034]
本稿では,バッチ平均Qラーニングの時間変化を,サンプル平均Qラーニングと呼ぶ。
本研究では, サンプル平均化アルゴリズムの正規性について, 温和な条件下での洞察を提供する新しい枠組みを開発する。
古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニングの時間変化は、シングルサンプルQ-ラーニングと定数バッチQ-ラーニングのどちらよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-14T17:17:19Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - The Efficacy of Pessimism in Asynchronous Q-Learning [17.193902915070506]
ペシミズムの原理を非同期Q-ラーニングに組み込んだアルゴリズムフレームワークを開発した。
このフレームワークは、サンプル効率の向上と、ほぼ専門的なデータの存在下での適応性の向上につながります。
我々の結果は、マルコフ的非i.d.データの存在下での悲観主義原理の使用に対する最初の理論的支援を提供する。
論文 参考訳(メタデータ) (2022-03-14T17:59:01Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Aggressive Q-Learning with Ensembles: Achieving Both High Sample
Efficiency and High Asymptotic Performance [12.871109549160389]
本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。
AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
論文 参考訳(メタデータ) (2021-11-17T14:48:52Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。