論文の概要: Simplifying Deep Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2407.04811v3
- Date: Tue, 04 Mar 2025 17:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:48:51.839065
- Title: Simplifying Deep Temporal Difference Learning
- Title(参考訳): 時間差学習の簡易化
- Authors: Matteo Gallici, Mattie Fellows, Benjamin Ellis, Bartomeu Pou, Ivan Masmitja, Jakob Nicolaus Foerster, Mario Martin,
- Abstract要約: 安定を保ちながら、政治外のTDトレーニングを加速し、簡素化できるかどうかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
よりシンプルなオンラインQ-LearningアルゴリズムであるPQNを提案する。
- 参考スコア(独自算出の注目度): 3.458933902627673
- License:
- Abstract: Q-learning played a foundational role in the field reinforcement learning (RL). However, TD algorithms with off-policy data, such as Q-learning, or nonlinear function approximation like deep neural networks require several additional tricks to stabilise training, primarily a large replay buffer and target networks. Unfortunately, the delayed updating of frozen network parameters in the target network harms the sample efficiency and, similarly, the large replay buffer introduces memory and implementation overheads. In this paper, we investigate whether it is possible to accelerate and simplify off-policy TD training while maintaining its stability. Our key theoretical result demonstrates for the first time that regularisation techniques such as LayerNorm can yield provably convergent TD algorithms without the need for a target network or replay buffer, even with off-policy data. Empirically, we find that online, parallelised sampling enabled by vectorised environments stabilises training without the need for a large replay buffer. Motivated by these findings, we propose PQN, our simplified deep online Q-Learning algorithm. Surprisingly, this simple algorithm is competitive with more complex methods like: Rainbow in Atari, PPO-RNN in Craftax, QMix in Smax, and can be up to 50x faster than traditional DQN without sacrificing sample efficiency. In an era where PPO has become the go-to RL algorithm, PQN reestablishes off-policy Q-learning as a viable alternative.
- Abstract(参考訳): Q-ラーニングは、フィールド強化学習(RL)において基礎的な役割を担った。
しかし、Qラーニングやディープニューラルネットワークのような非線形関数近似のような非政治データを持つTDアルゴリズムは、トレーニングを安定化するためのいくつかのトリックを必要としている。
残念ながら、ターゲットネットワークにおけるフリーズネットワークパラメータの更新が遅れてサンプル効率が損なわれ、同様に大きなリプレイバッファはメモリと実装のオーバーヘッドをもたらす。
本稿では、その安定性を維持しつつ、政治外のTDトレーニングを加速し、簡素化できるかどうかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化手法が、ターゲットネットワークやバッファーを必要とせず、かつ、外部のデータを必要とせずに、確実に収束したTDアルゴリズムが得られることを初めて示している。
実験的に、ベクトル化された環境によって実現されたオンライン並列サンプリングは、大規模なリプレイバッファを必要とせずにトレーニングを安定化させる。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
意外なことに、この単純なアルゴリズムは、AtariのRainbow、CraftaxのPPO-RNN、SmaxのQMix、サンプル効率を犠牲にすることなく従来のDQNよりも最大50倍高速である。
PPO が Go-to RL アルゴリズムとなった時代には、PQN は政治外のQ-ラーニングを現実的な代替手段として再確立している。
関連論文リスト
- The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Quantization-aware Interval Bound Propagation for Training Certifiably
Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。
近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。
本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:32:38Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - Deep Q-network using reservoir computing with multi-layered readout [0.0]
リカレントニューラルネットワーク(RNN)に基づく強化学習(RL)は、文脈に依存したタスクの学習に使用される。
BPTTを使わずにエージェントを訓練するリプレイメモリ導入方式が提案されている。
本稿では,読み出し層に多層ニューラルネットワークを適用することにより,本手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T00:32:55Z) - DNS: Determinantal Point Process Based Neural Network Sampler for
Ensemble Reinforcement Learning [2.918938321104601]
本稿では,決定点プロセスに基づくニューラルネットワークサンプリングシステムであるDNSを提案する。
DNSは、トレーニングステップ毎にk-dppを使用して、バックプロパゲーションのためのニューラルネットワークのサブセットをサンプリングする。
実験の結果, DNS拡張REDQは, 平均累積報酬においてベースラインREDQを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-01-31T17:08:39Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Deep Networks with Fast Retraining [0.0]
本稿では,深層畳み込みニューラルネットワーク(DCNN)学習のための新しいMP逆ベース高速リトレーニング戦略を提案する。
各トレーニングでは、後進パスでトレーニングされた畳み込み層の数を制御するランダムな学習戦略が最初に利用される。
そこで,MP 逆ベースバッチ・バイ・バッチ・ラーニング・ストラテジーを開発し,産業規模の計算資源を使わずにネットワークを実装できるようにした。
論文 参考訳(メタデータ) (2020-08-13T15:17:38Z) - An FPGA-Based On-Device Reinforcement Learning Approach using Online
Sequential Learning [2.99321624683618]
低コストFPGAデバイスのための軽量デバイス強化学習手法を提案する。
バックプロパゲーションメソッドに依存しないオンデバイスラーニングアプローチに基づく、最近提案されたニューラルネットワークを活用する。
提案手法は低コストFPGAプラットフォームとしてPYNQ-Z1ボード用に設計されている。
論文 参考訳(メタデータ) (2020-05-10T12:37:26Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。