論文の概要: Exploiting Estimation Bias in Deep Double Q-Learning for Actor-Critic
Methods
- arxiv url: http://arxiv.org/abs/2402.09078v1
- Date: Wed, 14 Feb 2024 10:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:53:55.188738
- Title: Exploiting Estimation Bias in Deep Double Q-Learning for Actor-Critic
Methods
- Title(参考訳): ディープダブルq-ラーニングにおける推定バイアスの活用
- Authors: Alberto Sinigaglia, Niccol\`o Turcato, Alberto Dalla Libera, Ruggero
Carli, Gian Antonio Susto
- Abstract要約: 予測遅延Deep Deterministic Policy Gradient (ExpD3) と Bias Exploiting - 双遅延Deep Deterministic Policy Gradient (BE-TD3) の2つの新しいアルゴリズムを提案する。
ExpD3は1つの$Q$推定で過大評価バイアスを減らすことを目的としており、BE-TD3はトレーニング中に最も有利な推定バイアスを動的に選択するように設計されている。
これらのアルゴリズムは、特に推定バイアスが学習に大きな影響を及ぼす環境において、TD3のような既存の手法にマッチするか、超える可能性があることを示す。
- 参考スコア(独自算出の注目度): 6.403512866289237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces innovative methods in Reinforcement Learning (RL),
focusing on addressing and exploiting estimation biases in Actor-Critic methods
for continuous control tasks, using Deep Double Q-Learning. We propose two
novel algorithms: Expectile Delayed Deep Deterministic Policy Gradient (ExpD3)
and Bias Exploiting - Twin Delayed Deep Deterministic Policy Gradient (BE-TD3).
ExpD3 aims to reduce overestimation bias with a single $Q$ estimate, offering a
balance between computational efficiency and performance, while BE-TD3 is
designed to dynamically select the most advantageous estimation bias during
training. Our extensive experiments across various continuous control tasks
demonstrate the effectiveness of our approaches. We show that these algorithms
can either match or surpass existing methods like TD3, particularly in
environments where estimation biases significantly impact learning. The results
underline the importance of bias exploitation in improving policy learning in
RL.
- Abstract(参考訳): 本稿では,連続制御タスクにおけるアクター-クリティック手法における推定バイアスの対処と活用に着目し,deep double q-learningを用いた強化学習(rl)の革新的手法を提案する。
本稿では2つの新しいアルゴリズムを提案する。期待遅延Deep Deterministic Policy Gradient (ExpD3) と Bias Exploiting - 双遅延Deep Deterministic Policy Gradient (BE-TD3)。
ExpD3は1ドルの見積りで過大評価バイアスを減らし、計算効率と性能のバランスを提供するのに対して、BE-TD3はトレーニング中に最も有利な推定バイアスを動的に選択するように設計されている。
様々な連続制御タスクに対する広範な実験は、我々のアプローチの有効性を実証している。
これらのアルゴリズムは、特に推定バイアスが学習に大きな影響を及ぼす環境において、TD3のような既存の手法にマッチするか、超える可能性があることを示す。
その結果、rlにおける政策学習改善におけるバイアスエクスプロイジョンの重要性が示唆された。
関連論文リスト
- On the Theory of Risk-Aware Agents: Bridging Actor-Critic and Economics [0.7655800373514546]
リスク対応強化学習アルゴリズムは、さまざまな継続的なタスクにおいて、リスクニュートラルなアルゴリズムよりも優れていた。
これらのアルゴリズムが採用する悲観的目的の理論的基礎は、まだ確立されていない。
本稿では,2つのアクターネットワークを特徴とするリスク認識型モデルフリーアルゴリズムとして,Dual Actor-Critic (DAC)を提案する。
論文 参考訳(メタデータ) (2023-10-30T13:28:06Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - AWD3: Dynamic Reduction of the Estimation Bias [0.0]
本稿では,経験再生機構を用いた非政治連続制御アルゴリズムにおける推定バイアスを除去する手法を提案する。
OpenAIのジムの継続的な制御環境を通じて、我々のアルゴリズムは、最先端の政治政策勾配学習アルゴリズムにマッチするか、より優れています。
論文 参考訳(メタデータ) (2021-11-12T15:46:19Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。