論文の概要: A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2312.07685v1
- Date: Tue, 12 Dec 2023 19:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 17:32:27.777420
- Title: A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning
- Title(参考訳): オフライン-オンライン強化学習におけるQ値推定の視点
- Authors: Yinmin Zhang, Jie Liu, Chuming Li, Yazhe Niu, Yaodong Yang, Yu Liu,
Wanli Ouyang
- Abstract要約: オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
- 参考スコア(独自算出の注目度): 54.48409201256968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline-to-online Reinforcement Learning (O2O RL) aims to improve the
performance of offline pretrained policy using only a few online samples. Built
on offline RL algorithms, most O2O methods focus on the balance between RL
objective and pessimism, or the utilization of offline and online samples. In
this paper, from a novel perspective, we systematically study the challenges
that remain in O2O RL and identify that the reason behind the slow improvement
of the performance and the instability of online finetuning lies in the
inaccurate Q-value estimation inherited from offline pretraining. Specifically,
we demonstrate that the estimation bias and the inaccurate rank of Q-value
cause a misleading signal for the policy update, making the standard offline RL
algorithms, such as CQL and TD3-BC, ineffective in the online finetuning. Based
on this observation, we address the problem of Q-value estimation by two
techniques: (1) perturbed value update and (2) increased frequency of Q-value
updates. The first technique smooths out biased Q-value estimation with sharp
peaks, preventing early-stage policy exploitation of sub-optimal actions. The
second one alleviates the estimation bias inherited from offline pretraining by
accelerating learning. Extensive experiments on the MuJoco and Adroit
environments demonstrate that the proposed method, named SO2, significantly
alleviates Q-value estimation issues, and consistently improves the performance
against the state-of-the-art methods by up to 83.1%.
- Abstract(参考訳): Online-to-online Reinforcement Learning (O2O RL) は,オフライン事前訓練ポリシのパフォーマンス向上を目的としている。
オフラインRLアルゴリズムに基づいて構築されたほとんどのO2Oメソッドは、RLの目的と悲観のバランス、オフラインおよびオンラインサンプルの利用に焦点を当てている。
本稿では,新しい観点から,O2O RLに残る課題を体系的に研究し,オンラインファインタニングの遅さと不安定性の背景には,オフライン事前学習から受け継いだ不正確なQ値推定が関係していることを明らかにする。
具体的には、推定バイアスとQ値の不正確なランクがポリシー更新の誤解を招くことを実証し、CQLやTD3-BCといった標準オフラインRLアルゴリズムをオンライン微調整では非効率にする。
本研究では,(1)摂動値の更新と(2)Q値の更新頻度の増加の2つの手法によるQ値推定の問題に対処する。
第1の手法は、鋭いピークでバイアス付きQ値の推定を円滑にし、準最適行動の早期政策利用を防止する。
第2の方法は、学習の加速によるオフライン事前学習から受け継いだ推定バイアスを緩和する。
MuJoco と Adroit の環境における大規模な実験により,提案手法である SO2 がQ値推定問題を著しく軽減し,最先端手法に対する性能を最大83.1%向上することを示した。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Exclusively Penalized Q-learning for Offline Reinforcement Learning [4.916646834691489]
制約に基づくオフライン強化学習(RL)は、分散シフトに起因する過大評価誤差を軽減するために、ポリシー制約や値関数に対する罰則を課す。
本稿では、ペナル化値関数を持つ既存のオフラインRL法における制限に着目し、値関数に導入される不要なバイアスによる過小評価バイアスの可能性を示す。
本稿では,推定誤差を誘導し易い状態を選択的にペナライズすることで,値関数における推定バイアスを低減する排他的罰則Q-ラーニング(EPQ)を提案する。
論文 参考訳(メタデータ) (2024-05-23T01:06:05Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。