論文の概要: Simplifying Deep Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2407.04811v2
- Date: Wed, 23 Oct 2024 12:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 23:35:45.240124
- Title: Simplifying Deep Temporal Difference Learning
- Title(参考訳): 時間差学習の簡易化
- Authors: Matteo Gallici, Mattie Fellows, Benjamin Ellis, Bartomeu Pou, Ivan Masmitja, Jakob Nicolaus Foerster, Mario Martin,
- Abstract要約: 安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
- 参考スコア(独自算出の注目度): 3.458933902627673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Q-learning played a foundational role in the field reinforcement learning (RL). However, TD algorithms with off-policy data, such as Q-learning, or nonlinear function approximation like deep neural networks require several additional tricks to stabilise training, primarily a replay buffer and target networks. Unfortunately, the delayed updating of frozen network parameters in the target network harms the sample efficiency and, similarly, the replay buffer introduces memory and implementation overheads. In this paper, we investigate whether it is possible to accelerate and simplify TD training while maintaining its stability. Our key theoretical result demonstrates for the first time that regularisation techniques such as LayerNorm can yield provably convergent TD algorithms without the need for a target network, even with off-policy data. Empirically, we find that online, parallelised sampling enabled by vectorised environments stabilises training without the need of a replay buffer. Motivated by these findings, we propose PQN, our simplified deep online Q-Learning algorithm. Surprisingly, this simple algorithm is competitive with more complex methods like: Rainbow in Atari, R2D2 in Hanabi, QMix in Smax, PPO-RNN in Craftax, and can be up to 50x faster than traditional DQN without sacrificing sample efficiency. In an era where PPO has become the go-to RL algorithm, PQN reestablishes Q-learning as a viable alternative.
- Abstract(参考訳): Q-ラーニングは、フィールド強化学習(RL)において基礎的な役割を担った。
しかし、Qラーニングやディープニューラルネットワークのような非線形関数近似のような非政治データを持つTDアルゴリズムは、主にリプレイバッファとターゲットネットワークのトレーニングを安定化するために、いくつかの追加のトリックを必要とする。
残念なことに、ターゲットネットワークにおける凍結ネットワークパラメータの更新が遅れてサンプル効率が損なわれ、同様にリプレイバッファもメモリと実装のオーバーヘッドを発生させる。
本稿では,安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化手法が、目的のネットワークを必要とせずに、たとえ政治外のデータであっても、確実に収束したTDアルゴリズムが得られることを初めて示している。
実験的に、ベクトル化された環境によって可能とされたオンライン並列サンプリングは、リプレイバッファを必要とせずにトレーニングを安定化させる。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
意外なことに、この単純なアルゴリズムは、AtariのRainbow、HanabiのR2D2、SmaxのQMix、CraftaxのPPO-RNNといった複雑な手法と競合する。
PPOがゴーツーRLアルゴリズムになった時代に、PQNはQラーニングを実行可能な代替手段として再確立する。
関連論文リスト
- The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - Deep Q-network using reservoir computing with multi-layered readout [0.0]
リカレントニューラルネットワーク(RNN)に基づく強化学習(RL)は、文脈に依存したタスクの学習に使用される。
BPTTを使わずにエージェントを訓練するリプレイメモリ導入方式が提案されている。
本稿では,読み出し層に多層ニューラルネットワークを適用することにより,本手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T00:32:55Z) - DNS: Determinantal Point Process Based Neural Network Sampler for
Ensemble Reinforcement Learning [2.918938321104601]
本稿では,決定点プロセスに基づくニューラルネットワークサンプリングシステムであるDNSを提案する。
DNSは、トレーニングステップ毎にk-dppを使用して、バックプロパゲーションのためのニューラルネットワークのサブセットをサンプリングする。
実験の結果, DNS拡張REDQは, 平均累積報酬においてベースラインREDQを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-01-31T17:08:39Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Deep Networks with Fast Retraining [0.0]
本稿では,深層畳み込みニューラルネットワーク(DCNN)学習のための新しいMP逆ベース高速リトレーニング戦略を提案する。
各トレーニングでは、後進パスでトレーニングされた畳み込み層の数を制御するランダムな学習戦略が最初に利用される。
そこで,MP 逆ベースバッチ・バイ・バッチ・ラーニング・ストラテジーを開発し,産業規模の計算資源を使わずにネットワークを実装できるようにした。
論文 参考訳(メタデータ) (2020-08-13T15:17:38Z) - An FPGA-Based On-Device Reinforcement Learning Approach using Online
Sequential Learning [2.99321624683618]
低コストFPGAデバイスのための軽量デバイス強化学習手法を提案する。
バックプロパゲーションメソッドに依存しないオンデバイスラーニングアプローチに基づく、最近提案されたニューラルネットワークを活用する。
提案手法は低コストFPGAプラットフォームとしてPYNQ-Z1ボード用に設計されている。
論文 参考訳(メタデータ) (2020-05-10T12:37:26Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。