論文の概要: M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network
- arxiv url: http://arxiv.org/abs/2209.07809v1
- Date: Fri, 16 Sep 2022 09:20:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 11:58:40.566583
- Title: M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network
- Title(参考訳): M$^2$DQN:ディープラーニングネットワークの高速化のためのロバスト手法
- Authors: Zhe Zhang, Yukun Zou, Junjie Lai, Qing Xu
- Abstract要約: 我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
- 参考スコア(独自算出の注目度): 6.689964384669018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Q-learning Network (DQN) is a successful way which combines
reinforcement learning with deep neural networks and leads to a widespread
application of reinforcement learning. One challenging problem when applying
DQN or other reinforcement learning algorithms to real world problem is data
collection. Therefore, how to improve data efficiency is one of the most
important problems in the research of reinforcement learning. In this paper, we
propose a framework which uses the Max-Mean loss in Deep Q-Network (M$^2$DQN).
Instead of sampling one batch of experiences in the training step, we sample
several batches from the experience replay and update the parameters such that
the maximum TD-error of these batches is minimized. The proposed method can be
combined with most of existing techniques of DQN algorithm by replacing the
loss function. We verify the effectiveness of this framework with one of the
most widely used techniques, Double DQN (DDQN), in several gym games. The
results show that our method leads to a substantial improvement in both the
learning speed and performance.
- Abstract(参考訳): ディープq-learning network(dqn)は、強化学習とディープニューラルネットワークを組み合わせることで、強化学習を広く応用することに成功した方法である。
DQNや他の強化学習アルゴリズムを実世界の問題に適用する際の問題のひとつは、データ収集である。
したがって、データ効率の向上は強化学習研究において最も重要な問題の一つである。
本稿では,Deep Q-Network(M$^2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーを最小限に抑えるようにパラメータを更新する。
提案手法は損失関数を置き換えることで,既存のdqnアルゴリズムの手法の多くと組み合わせることができる。
いくつかのジムゲームにおいて,最も広く使われているDouble DQN(DDQN)を用いて,このフレームワークの有効性を検証する。
その結果,本手法は学習速度と性能の両方に大きな改善をもたらすことがわかった。
関連論文リスト
- Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:49:07Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - Solving Sparse Linear Inverse Problems in Communication Systems: A Deep
Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。
提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文 参考訳(メタデータ) (2020-10-29T06:32:53Z) - Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文 参考訳(メタデータ) (2020-10-09T20:25:14Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - An adaptive synchronization approach for weights of deep reinforcement
learning [2.132096006921048]
ディープQ-Networks(DQN)は、ディープ強化学習の最もよく知られている方法の1つである。
ネットワークの重みを一定のステップサイズで同期させ、エージェントの振る舞いとは無関係に、場合によっては適切に学習されたネットワークが失われる可能性がある。
DQNで使用される神経重みの同期に適応的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-16T18:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。