論文の概要: Double Q-learning for Value-based Deep Reinforcement Learning, Revisited
- arxiv url: http://arxiv.org/abs/2507.00275v1
- Date: Mon, 30 Jun 2025 21:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.943995
- Title: Double Q-learning for Value-based Deep Reinforcement Learning, Revisited
- Title(参考訳): 価値に基づく深層強化学習のための二重Q-ラーニング
- Authors: Prabhat Nagarajan, Martha White, Marlos C. Machado,
- Abstract要約: ダブルQラーニング(Double Q-learning)は、Qラーニングの過大評価に対処するために導入されたアルゴリズムである。
本稿では,この2次Q-ラーニングのコアアイデアを,価値に基づく深層RLに適用するアルゴリズムについて検討する。
- 参考スコア(独自算出の注目度): 24.236175931106978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overestimation is pervasive in reinforcement learning (RL), including in Q-learning, which forms the algorithmic basis for many value-based deep RL algorithms. Double Q-learning is an algorithm introduced to address Q-learning's overestimation by training two Q-functions and using both to de-correlate action-selection and action-evaluation in bootstrap targets. Shortly after Q-learning was adapted to deep RL in the form of deep Q-networks (DQN), Double Q-learning was adapted to deep RL in the form of Double DQN. However, Double DQN only loosely adapts Double Q-learning, forgoing the training of two different Q-functions that bootstrap off one another. In this paper, we study algorithms that adapt this core idea of Double Q-learning for value-based deep RL. We term such algorithms Deep Double Q-learning (DDQL). Our aim is to understand whether DDQL exhibits less overestimation than Double DQN and whether performant instantiations of DDQL exist. We answer both questions affirmatively, demonstrating that DDQL reduces overestimation and outperforms Double DQN in aggregate across 57 Atari 2600 games, without requiring additional hyperparameters. We also study several aspects of DDQL, including its network architecture, replay ratio, and minibatch sampling strategy.
- Abstract(参考訳): 過大評価は、多くの値ベースのディープRLアルゴリズムのアルゴリズム基盤を形成するQラーニングを含む強化学習(RL)において広く使われている。
ダブルQラーニング(Double Q-learning)は、2つのQ-関数をトレーニングし、ブートストラップターゲットにおけるアクション選択とアクション評価の両方を非相関化することで、Q-ラーニングの過大評価に対処するために導入されたアルゴリズムである。
深度Q-networks(DQN)の形でQ-ラーニングが深度RLに適応した直後に、ダブルQ-ラーニングは深度RLに深度DQNに適応した。
しかし、Double DQNは二重Q-ラーニングのみを緩やかに適応させ、互いにブートストラップする2つの異なるQ-関数のトレーニングを強制する。
本稿では,この2重Q学習のコアアイデアを,価値に基づく深層RLに適用するアルゴリズムについて検討する。
このようなアルゴリズムをDep Double Q-learning(DDQL)と呼ぶ。
我々の目標は、DDQLがDouble DQNよりも過大評価が少ないか、DDQLの性能的なインスタンス化が存在するかを理解することです。
DDQLは過度な推定を減らし、57のAtari 2600のゲームでDouble DQNを上回り、追加のハイパーパラメータを必要としないことを示す。
また、DDQLのネットワークアーキテクチャ、リプレイ率、ミニバッチサンプリング戦略など、いくつかの側面についても検討する。
関連論文リスト
- DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Expert Q-learning: Deep Reinforcement Learning with Coarse State Values from Offline Expert Examples [8.938418994111716]
エキスパートQラーニングは、Dueling Q-learningにインスパイアされ、半教師付き学習を強化学習に組み込むことを目的としている。
オフラインの専門家は、3つの離散値を使用して、粗い方法で状態の値を評価する。
以上の結果から,エキスパートQ-ラーニングは本当に有用であり,過大評価バイアスに耐性があることが示唆された。
論文 参考訳(メタデータ) (2021-06-28T12:41:45Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent [47.3692506462581]
AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
論文 参考訳(メタデータ) (2020-07-15T01:11:43Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。