論文の概要: Decorrelated Double Q-learning
- arxiv url: http://arxiv.org/abs/2006.06956v1
- Date: Fri, 12 Jun 2020 05:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:22:22.295695
- Title: Decorrelated Double Q-learning
- Title(参考訳): 障害関連ダブルQ-ラーニング
- Authors: Gang Chen
- Abstract要約: 本稿では,D2Q(Decorrelated Double Q-learning)を導入し,値関数近似器間の相関を小さくする。
MuJoCo連続制御タスクのスイートにおける実験結果から,非相関な二重Q-ラーニングが性能を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 4.982806898121435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-learning with value function approximation may have the poor performance
because of overestimation bias and imprecise estimate. Specifically,
overestimation bias is from the maximum operator over noise estimate, which is
exaggerated using the estimate of a subsequent state. Inspired by the recent
advance of deep reinforcement learning and Double Q-learning, we introduce the
decorrelated double Q-learning (D2Q). Specifically, we introduce the
decorrelated regularization item to reduce the correlation between value
function approximators, which can lead to less biased estimation and low
variance. The experimental results on a suite of MuJoCo continuous control
tasks demonstrate that our decorrelated double Q-learning can effectively
improve the performance.
- Abstract(参考訳): 値関数近似を用いたQ-ラーニングは、過大評価バイアスと不正確な推定のため、性能が劣る可能性がある。
具体的には、過大評価バイアスはノイズ推定に対する最大演算子からであり、これはその後の状態の推定を用いて誇張される。
近年の深層強化学習とダブルq学習の進展に触発されて,decorrelated double q-learning (d2q) を導入した。
具体的には,値関数近似子間の相関を減少させるために,相関正規化項目を導入することにより,偏りの少ない推定と分散の低減が期待できる。
1組のmujoco連続制御タスクの実験結果から,decorrelated double q-learningが効果的に性能を向上できることが判明した。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - On the Estimation Bias in Double Q-Learning [20.856485777692594]
二重Q学習は完全にバイアスがなく、過小評価バイアスに悩まされている。
そのような過小評価バイアスは、近似されたベルマン作用素の下で複数の最適でない不動点をもたらす可能性があることを示す。
ダブルQ-ラーニングにおける過小評価バイアスに対する部分修正として,単純だが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:41:24Z) - Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。
我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文 参考訳(メタデータ) (2021-09-24T07:41:07Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Maxmin Q-learning: Controlling the Estimation Bias of Q-learning [31.742397178618624]
過大評価バイアスは、最大推定アクション値を用いて最大アクション値を近似するため、Q-ラーニングに影響を与える。
バイアスを柔軟に制御するためのパラメータを提供するemphMaxmin Q-learningと呼ばれるQ-ラーニングの一般化を提案する。
提案アルゴリズムは,おもちゃの環境における推定バイアスをよりよく制御し,いくつかのベンチマーク問題において優れた性能が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-02-16T02:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。