論文の概要: A Convergent and Efficient Deep Q Network Algorithm
- arxiv url: http://arxiv.org/abs/2106.15419v1
- Date: Tue, 29 Jun 2021 13:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:43:22.886594
- Title: A Convergent and Efficient Deep Q Network Algorithm
- Title(参考訳): 収束性と効率的な深部Qネットワークアルゴリズム
- Authors: Zhikang T. Wang, Masahito Ueda
- Abstract要約: 深部Qネットワーク(DQN)強化学習アルゴリズムは,現実的な環境での動作を多様化し,停止することができることを示す。
本稿では,DQNを慎重に修正した収束DQNアルゴリズム(C-DQN)を提案する。
難しい環境でしっかりと学習し、Atari 2600ベンチマークでいくつかの難しいゲームを学ぶことができる。
- 参考スコア(独自算出の注目度): 3.553493344868414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the empirical success of the deep Q network (DQN) reinforcement
learning algorithm and its variants, DQN is still not well understood and it
does not guarantee convergence. In this work, we show that DQN can diverge and
cease to operate in realistic settings. Although there exist gradient-based
convergent methods, we show that they actually have inherent problems in
learning behaviour and elucidate why they often fail in practice. To overcome
these problems, we propose a convergent DQN algorithm (C-DQN) by carefully
modifying DQN, and we show that the algorithm is convergent and can work with
large discount factors (0.9998). It learns robustly in difficult settings and
can learn several difficult games in the Atari 2600 benchmark where DQN fail,
within a moderate computational budget. Our codes have been publicly released
and can be used to reproduce our results.
- Abstract(参考訳): ディープQネットワーク(DQN)強化学習アルゴリズムとそのバリエーションの実証的な成功にもかかわらず、DQNはまだよく理解されておらず、収束を保証していない。
本研究は,DQNが現実的な環境で分散し,動作を停止できることを示す。
勾配に基づく収束法は存在するが、実際に学習行動に固有の問題があり、なぜ頻繁に失敗するのかを明らかにする。
これらの問題を解決するために、DQNを慎重に修正し、収束DQNアルゴリズム(C-DQN)を提案し、このアルゴリズムが収束し、大きな割引係数(0.9998)で動作することを示す。
難しい環境で頑健に学習し、適度な計算予算内でdqnが失敗するatari 2600ベンチマークでいくつかの難しいゲームを学べる。
私たちのコードは公開され、結果の再現に使用できます。
関連論文リスト
- Weakly Coupled Deep Q-Networks [5.76924666595801]
弱結合マルコフ決定過程(WCMDP)の性能を向上させる新しい深層強化学習アルゴリズムを提案する。
WCDQNは、複数のDQN"サブエージェント"を訓練するために1つのネットワークを使用し、各サブプロブレムに対して1つを訓練し、それらのソリューションを組み合わせて最適なアクション値の上限を確立する。
論文 参考訳(メタデータ) (2023-10-28T20:07:57Z) - On the Convergence and Sample Complexity Analysis of Deep Q-Networks
with $\epsilon$-Greedy Exploration [86.71396285956044]
本稿では,深層強化学習における$varepsilon$-greedyによるDQN(Deep Q-Network)の理論的理解を提供する。
論文 参考訳(メタデータ) (2023-10-24T20:37:02Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Control of Continuous Quantum Systems with Many Degrees of Freedom based
on Convergent Reinforcement Learning [1.8710230264817362]
本稿では,Q-ラーニングにおける非収束問題について考察する。
我々は,収束深度Qネットワーク(C-DQN)アルゴリズムと呼ばれる新しい収束深度Q学習アルゴリズムを開発した。
我々は、C-DQNの収束を証明し、それをAtari 2600ベンチマークに適用する。
論文 参考訳(メタデータ) (2022-12-21T00:52:43Z) - Interpretable Option Discovery using Deep Q-Learning and Variational
Autoencoders [9.432068833600884]
DVQNアルゴリズムは、オプションベースの強化学習における開始条件と終了条件を特定するための有望なアプローチである。
実験により、DVQNアルゴリズムは自動開始と終了で、Rainbowに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-10-03T21:08:39Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - Does DQN Learn? [16.035744751431114]
我々は、広く使われているディープQ-ネットワーク(DQN)が、この基本的な基準を満たさないことを示した。
DQNは一般的に、初期よりも政策を悪化させる非自明な確率があることを数値的に示す。
論文 参考訳(メタデータ) (2022-05-26T20:46:01Z) - Toward Trainability of Deep Quantum Neural Networks [87.04438831673063]
ランダムな構造を持つ量子ニューラルネットワーク(QNN)は、回路深さと量子ビット数が増加するにつれて指数関数的に減少する勾配のため、トレーニング性に乏しい。
理論的保証のある深部QNNに対して、消滅する勾配問題に対する最初の実現可能な解決策を提供する。
論文 参考訳(メタデータ) (2021-12-30T10:27:08Z) - MQBench: Towards Reproducible and Deployable Model Quantization
Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。
我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。
包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文 参考訳(メタデータ) (2021-11-05T23:38:44Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。