論文の概要: Ensemble Elastic DQN: A novel multi-step ensemble approach to address overestimation in deep value-based reinforcement learning
- arxiv url: http://arxiv.org/abs/2506.05716v1
- Date: Fri, 06 Jun 2025 03:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.309771
- Title: Ensemble Elastic DQN: A novel multi-step ensemble approach to address overestimation in deep value-based reinforcement learning
- Title(参考訳): Ensemble Elastic DQN: 深層値に基づく強化学習における過大評価に対処する新しい多段階アンサンブルアプローチ
- Authors: Adrian Ly, Richard Dazeley, Peter Vamplew, Francisco Cruz, Sunil Aryal,
- Abstract要約: 本稿では,エンサンブルを弾性的なステップ更新で統一し,アルゴリズム性能を安定化させる,Ensemble Elastic Step DQN (EEDQN) という新しいアルゴリズムを提案する。
EEDQNは、過大評価バイアスとサンプル効率という、深層強化学習における2つの大きな課題に対処するように設計されている。
以上の結果から,EEDQNは全テスト環境において一貫したロバストな性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 1.8008841825105586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many algorithmic extensions to Deep Q-Networks (DQN) have been proposed, there remains limited understanding of how different improvements interact. In particular, multi-step and ensemble style extensions have shown promise in reducing overestimation bias, thereby improving sample efficiency and algorithmic stability. In this paper, we introduce a novel algorithm called Ensemble Elastic Step DQN (EEDQN), which unifies ensembles with elastic step updates to stabilise algorithmic performance. EEDQN is designed to address two major challenges in deep reinforcement learning: overestimation bias and sample efficiency. We evaluated EEDQN against standard and ensemble DQN variants across the MinAtar benchmark, a set of environments that emphasise behavioral learning while reducing representational complexity. Our results show that EEDQN achieves consistently robust performance across all tested environments, outperforming baseline DQN methods and matching or exceeding state-of-the-art ensemble DQNs in final returns on most of the MinAtar environments. These findings highlight the potential of systematically combining algorithmic improvements and provide evidence that ensemble and multi-step methods, when carefully integrated, can yield substantial gains.
- Abstract(参考訳): ディープQ-Networks(DQN)に対する多くのアルゴリズム拡張が提案されているが、異なる改善がどのように相互作用するかについての理解は限られている。
特に、マルチステップおよびアンサンブルスタイルの拡張は、過大評価バイアスを減らし、サンプル効率とアルゴリズム安定性を向上させることを約束している。
本稿では,EEDQN (Ensemble Elastic Step DQN) と呼ばれる新しいアルゴリズムを提案する。
EEDQNは、過大評価バイアスとサンプル効率という、深層強化学習における2つの大きな課題に対処するように設計されている。
我々はEEDQNを、表現の複雑さを減らしながら行動学習を強調する環境であるMinAtarベンチマークの標準およびアンサンブルDQN変種に対して評価した。
以上の結果から,EEDQNは,すべてのテスト環境において一貫した堅牢な性能を実現し,ベースラインのDQNメソッドよりも優れ,また,ほとんどのMinAtar環境における最終リターンにおいて,最先端のDQNをマッチングあるいは超過することを示す。
これらの知見は、アルゴリズムの改良を体系的に組み合わせることの可能性を強調し、アンサンブル法とマルチステップ法が慎重に統合された場合、かなりの利得が得られることを示す。
関連論文リスト
- Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Reducing Computational Complexity of Neural Networks in Optical Channel
Equalization: From Concepts to Implementation [1.6987798749419218]
本稿では,従来のディジタルバックプロパゲーション(DBP)イコライザよりも実装が簡単で,性能も優れたNNベースのイコライザを設計できることを示す。
NNに基づく等化器は、完全電子色分散補償ブロックと同程度の複雑さを維持しつつ、優れた性能を達成することができる。
論文 参考訳(メタデータ) (2022-08-26T21:00:05Z) - Aggressive Q-Learning with Ensembles: Achieving Both High Sample
Efficiency and High Asymptotic Performance [12.871109549160389]
本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。
AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
論文 参考訳(メタデータ) (2021-11-17T14:48:52Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。