論文の概要: DQN Performance with Epsilon Greedy Policies and Prioritized Experience Replay
- arxiv url: http://arxiv.org/abs/2511.03670v1
- Date: Wed, 05 Nov 2025 17:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.508985
- Title: DQN Performance with Epsilon Greedy Policies and Prioritized Experience Replay
- Title(参考訳): Epsilon Greedy PoliciesによるDQNパフォーマンスと優先体験再生
- Authors: Daniel Perkins, Oscar J. Escobar, Luke Green,
- Abstract要約: 本研究では, 有限環境における深部Q-Networksの詳細な研究を行い, エプシロングレーディ探査スケジュールと優先経験再生の影響を強調した。
我々は,エプシロン崩壊スケジュールの変動が学習効率,収束挙動,報酬最適化に与える影響を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a detailed study of Deep Q-Networks in finite environments, emphasizing the impact of epsilon-greedy exploration schedules and prioritized experience replay. Through systematic experimentation, we evaluate how variations in epsilon decay schedules affect learning efficiency, convergence behavior, and reward optimization. We investigate how prioritized experience replay leads to faster convergence and higher returns and show empirical results comparing uniform, no replay, and prioritized strategies across multiple simulations. Our findings illuminate the trade-offs and interactions between exploration strategies and memory management in DQN training, offering practical recommendations for robust reinforcement learning in resource-constrained settings.
- Abstract(参考訳): 本研究では, 有限環境における深部Q-Networksの詳細な研究を行い, エプシロングレーディ探査スケジュールと優先経験再生の影響を強調した。
系統的な実験を通じて,エプシロン崩壊スケジュールの変動が学習効率,収束挙動,報酬最適化に与える影響を評価する。
優先された経験リプレイが、より早く収束し、より高いリターンをもたらすかを検討し、複数のシミュレーションをまたいだ均一性、リプレイなし、優先順位付けされた戦略を比較した経験的結果を示す。
本研究は,DQNトレーニングにおける探索戦略とメモリ管理のトレードオフと相互作用を解明し,資源制約のある環境での堅牢な強化学習を実践的に推奨するものである。
関連論文リスト
- Reliability-Adjusted Prioritized Experience Replay [5.342556166066767]
本稿では,時間差誤差の信頼性の新たな尺度を導入することで,PER(priitized Experience Replay)の拡張を提案する。
理論的には、結果の遷移選択アルゴリズムであるReliability-adjusted Prioritized Experience Replay (ReaPER)はPERよりも効率的な学習を可能にする。
論文 参考訳(メタデータ) (2025-06-23T10:35:36Z) - Reward Prediction Error Prioritisation in Experience Replay: The RPE-PER Method [1.600323605807673]
Reward Predictive Error Prioritised Experience Replay (RPE-PER)を紹介する。
RPE-PERは、RPEに基づいてバッファ内での経験を優先する。
本手法では,標準的な批評家ネットワークが生成するQ値に加えて,報酬を予測する批評家ネットワークであるEMCNを用いる。
論文 参考訳(メタデータ) (2025-01-30T02:09:35Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Variance Reduction based Experience Replay for Policy Optimization [3.0657293044976894]
本稿では,最も関連性の高いサンプルを選択的に再利用し,政策勾配推定を改善する汎用分散還元型体験再生(VRER)フレームワークを提案する。
我々の理論的および実証的研究は、提案したVRERが最適なポリシーの学習を加速し、最先端のポリシー最適化アプローチの性能を高めることができることを示している。
論文 参考訳(メタデータ) (2022-08-25T20:51:00Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。