論文の概要: Elastic Step DQN: A novel multi-step algorithm to alleviate
overestimation in Deep QNetworks
- arxiv url: http://arxiv.org/abs/2210.03325v1
- Date: Fri, 7 Oct 2022 04:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:35:46.312747
- Title: Elastic Step DQN: A novel multi-step algorithm to alleviate
overestimation in Deep QNetworks
- Title(参考訳): Elastic Step DQN: Deep QNetworksにおける過大評価を軽減する新しいマルチステップアルゴリズム
- Authors: Adrian Ly, Richard Dazeley, Peter Vamplew, Francisco Cruz and Sunil
Aryal
- Abstract要約: Deep Q-Networksアルゴリズム(DQN)は、多くのAtari学習環境において、人間のレベルパフォーマンスを上回るためにディープニューラルネットワークを使用した最初の強化学習アルゴリズムである。
不安定な振る舞いはしばしば、過大評価バイアスと呼ばれる$Q$-値の過大評価によって特徴づけられる。
本稿では,訪問状態の類似性に基づいて,複数ステップ更新におけるステップサイズ水平度を動的に変化させるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.781147009075454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Q-Networks algorithm (DQN) was the first reinforcement learning
algorithm using deep neural network to successfully surpass human level
performance in a number of Atari learning environments. However, divergent and
unstable behaviour have been long standing issues in DQNs. The unstable
behaviour is often characterised by overestimation in the $Q$-values, commonly
referred to as the overestimation bias. To address the overestimation bias and
the divergent behaviour, a number of heuristic extensions have been proposed.
Notably, multi-step updates have been shown to drastically reduce unstable
behaviour while improving agent's training performance. However, agents are
often highly sensitive to the selection of the multi-step update horizon ($n$),
and our empirical experiments show that a poorly chosen static value for $n$
can in many cases lead to worse performance than single-step DQN. Inspired by
the success of $n$-step DQN and the effects that multi-step updates have on
overestimation bias, this paper proposes a new algorithm that we call `Elastic
Step DQN' (ES-DQN). It dynamically varies the step size horizon in multi-step
updates based on the similarity of states visited. Our empirical evaluation
shows that ES-DQN out-performs $n$-step with fixed $n$ updates, Double DQN and
Average DQN in several OpenAI Gym environments while at the same time
alleviating the overestimation bias.
- Abstract(参考訳): ディープq-networksアルゴリズム(dqn)は、多くのatari学習環境において人間のレベル性能を上回った、ディープニューラルネットワークを用いた最初の強化学習アルゴリズムである。
しかし、DQNの発散と不安定な行動は長年にわたって問題となっていた。
不安定な振る舞いはしばしば、過大評価バイアスと呼ばれる$Q$-値の過大評価によって特徴づけられる。
過大評価バイアスと発散挙動に対処するために、多くのヒューリスティック拡張が提案されている。
特筆すべきは、エージェントのトレーニングパフォーマンスを改善しながら、不安定な振る舞いを劇的に減少させるマルチステップアップデートである。
しかし,エージェントは多段階更新の地平線の選択に非常に敏感であり(n$),実証実験の結果,n$の静的値が低い場合が多く,シングルステップのDQNよりもパフォーマンスが劣ることがわかった。
本稿では、$n$-step DQNの成功とマルチステップ更新が過大評価バイアスに与える影響に触発されて、我々は「Elastic Step DQN」(ES-DQN)と呼ぶ新しいアルゴリズムを提案する。
訪問した状態の類似性に基づいて、マルチステップ更新において、ステップサイズ水平線を動的に変更する。
実験により, ES-DQNは, 過大評価バイアスを緩和しつつ, 固定された$n$更新, Double DQN と Average DQN の2つの OpenAI Gym 環境において, $n$-step を上回る性能を示した。
関連論文リスト
- A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Weakly Coupled Deep Q-Networks [5.76924666595801]
弱結合マルコフ決定過程(WCMDP)の性能を向上させる新しい深層強化学習アルゴリズムを提案する。
WCDQNは、複数のDQN"サブエージェント"を訓練するために1つのネットワークを使用し、各サブプロブレムに対して1つを訓練し、それらのソリューションを組み合わせて最適なアクション値の上限を確立する。
論文 参考訳(メタデータ) (2023-10-28T20:07:57Z) - On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Modified Double DQN: addressing stability [0.2867517731896504]
Double-DQN (DDQN) アルゴリズムは元々、元のDQNアルゴリズムの過大評価問題に対処するために提案された。
DDQNアルゴリズムの安定性と過大評価の両面での性能を維持するために、3つの改良が提案されている。
論文 参考訳(メタデータ) (2021-08-09T15:27:22Z) - A Convergent and Efficient Deep Q Network Algorithm [3.553493344868414]
深部Qネットワーク(DQN)強化学習アルゴリズムは,現実的な環境での動作を多様化し,停止することができることを示す。
本稿では,DQNを慎重に修正した収束DQNアルゴリズム(C-DQN)を提案する。
難しい環境でしっかりと学習し、Atari 2600ベンチマークでいくつかの難しいゲームを学ぶことができる。
論文 参考訳(メタデータ) (2021-06-29T13:38:59Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。