論文の概要: Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy
Actor-Critic
- arxiv url: http://arxiv.org/abs/2306.02865v4
- Date: Sat, 17 Feb 2024 21:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:48:27.420168
- Title: Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy
Actor-Critic
- Title(参考訳): セレンディピティーの獲得:オフポリティアクター批判における過去の成功価値の爆発
- Authors: Tianying Ji, Yu Luo, Fuchun Sun, Xianyuan Zhan, Jianwei Zhang, Huazhe
Xu
- Abstract要約: 高品質なQ値関数の学習は、多くの現代のオフポリティ深い強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
共通視点から考えると、Q値が実際にRLトレーニングプロセスの後半段階で過小評価されていることが分かる。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
- 参考スコア(独自算出の注目度): 45.114862253349735
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning high-quality Q-value functions plays a key role in the success of
many modern off-policy deep reinforcement learning (RL) algorithms. Previous
works focus on addressing the value overestimation issue, an outcome of
adopting function approximators and off-policy learning. Deviating from the
common viewpoint, we observe that Q-values are indeed underestimated in the
latter stage of the RL training process, primarily related to the use of
inferior actions from the current policy in Bellman updates as compared to the
more optimal action samples in the replay buffer. We hypothesize that this
long-neglected phenomenon potentially hinders policy learning and reduces
sample efficiency. Our insight to address this issue is to incorporate
sufficient exploitation of past successes while maintaining exploration
optimism. We propose the Blended Exploitation and Exploration (BEE) operator, a
simple yet effective approach that updates Q-value using both historical
best-performing actions and the current policy. The instantiations of our
method in both model-free and model-based settings outperform state-of-the-art
methods in various continuous control tasks and achieve strong performance in
failure-prone scenarios and real-world robot tasks.
- Abstract(参考訳): 高品質なQ値関数の学習は、多くの現代のオフポリティ深い強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
これまでの研究では、価値の過大評価問題、関数近似子の採用とオフポリティミー学習の成果に焦点が当てられている。
共通視点から考えると、RLトレーニングプロセスの後半段階では、Q値が実際に過小評価され、主にリプレイバッファのより最適なアクションサンプルと比較して、ベルマン更新における現在のポリシーからの劣るアクションの使用に関連している。
この長期にわたる現象が政策学習を妨げる可能性があり、サンプル効率を低下させるという仮説を立てる。
この問題に対処するための私たちの洞察は、探索の楽観性を維持しながら、過去の成功の十分な活用を組み込むことです。
我々は,過去のベストパフォーマンスアクションと現在のポリシの両方を使用してq値を更新する,単純かつ効果的なアプローチであるmixed exploitation and exploration (bee)オペレータを提案する。
モデルフリーとモデルベースの両方の設定における本手法のインスタンス化は, 各種連続制御タスクにおける最先端の手法よりも優れ, 障害発生シナリオや実世界のロボットタスクにおいて高い性能を実現する。
関連論文リスト
- Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Value-Based Reinforcement Learning for Continuous Control Robotic
Manipulation in Multi-Task Sparse Reward Settings [15.198729819644795]
スパース報酬設定における連続的なロボット操作タスクの学習における価値に基づく強化学習の可能性を示す。
ロボット操作タスクにおいて、RBF-DQNはTD3、SAC、PPOといった最先端のアルゴリズムよりも高速に収束することを示す。
また,RBF-DQNを用いてアブレーション研究を行い,HER (Hindsight Experience Replay) やPER ( Prioritized Experience Replay) などのバニラ深度Q学習の強化手法がRBF-DQNにも適用可能であることを示した。
論文 参考訳(メタデータ) (2021-07-28T13:40:08Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。