Fugu-MT 論文翻訳(概要): Simplifying Deep Temporal Difference Learning

論文の概要: Simplifying Deep Temporal Difference Learning

arxiv url: http://arxiv.org/abs/2407.04811v3
Date: Tue, 04 Mar 2025 17:00:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 19:34:57.683524
Title: Simplifying Deep Temporal Difference Learning
Title（参考訳）: 時間差学習の簡易化
Authors: Matteo Gallici, Mattie Fellows, Benjamin Ellis, Bartomeu Pou, Ivan Masmitja, Jakob Nicolaus Foerster, Mario Martin,
Abstract要約: 安定を保ちながら、政治外のTDトレーニングを加速し、簡素化できるかどうかを検討する。我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。よりシンプルなオンラインQ-LearningアルゴリズムであるPQNを提案する。
参考スコア（独自算出の注目度）: 3.458933902627673
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Q-learning played a foundational role in the field reinforcement learning (RL). However, TD algorithms with off-policy data, such as Q-learning, or nonlinear function approximation like deep neural networks require several additional tricks to stabilise training, primarily a large replay buffer and target networks. Unfortunately, the delayed updating of frozen network parameters in the target network harms the sample efficiency and, similarly, the large replay buffer introduces memory and implementation overheads. In this paper, we investigate whether it is possible to accelerate and simplify off-policy TD training while maintaining its stability. Our key theoretical result demonstrates for the first time that regularisation techniques such as LayerNorm can yield provably convergent TD algorithms without the need for a target network or replay buffer, even with off-policy data. Empirically, we find that online, parallelised sampling enabled by vectorised environments stabilises training without the need for a large replay buffer. Motivated by these findings, we propose PQN, our simplified deep online Q-Learning algorithm. Surprisingly, this simple algorithm is competitive with more complex methods like: Rainbow in Atari, PPO-RNN in Craftax, QMix in Smax, and can be up to 50x faster than traditional DQN without sacrificing sample efficiency. In an era where PPO has become the go-to RL algorithm, PQN reestablishes off-policy Q-learning as a viable alternative.
Abstract（参考訳）: Q-ラーニングは、フィールド強化学習(RL)において基礎的な役割を担った。しかし、Qラーニングやディープニューラルネットワークのような非線形関数近似のような非政治データを持つTDアルゴリズムは、トレーニングを安定化するためのいくつかのトリックを必要としている。残念ながら、ターゲットネットワークにおけるフリーズネットワークパラメータの更新が遅れてサンプル効率が損なわれ、同様に大きなリプレイバッファはメモリと実装のオーバーヘッドをもたらす。本稿では、その安定性を維持しつつ、政治外のTDトレーニングを加速し、簡素化できるかどうかを検討する。我々の重要な理論的結果は、LayerNormのような正規化手法が、ターゲットネットワークやバッファーを必要とせず、かつ、外部のデータを必要とせずに、確実に収束したTDアルゴリズムが得られることを初めて示している。実験的に、ベクトル化された環境によって実現されたオンライン並列サンプリングは、大規模なリプレイバッファを必要とせずにトレーニングを安定化させる。これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。意外なことに、この単純なアルゴリズムは、AtariのRainbow、CraftaxのPPO-RNN、SmaxのQMix、サンプル効率を犠牲にすることなく従来のDQNよりも最大50倍高速である。 PPO が Go-to RL アルゴリズムとなった時代には、PQN は政治外のQ-ラーニングを現実的な代替手段として再確立している。

関連論文リスト

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
Information Consistent Pruning: How to Efficiently Search for Sparse Networks? [5.524804393257921]
反復等級プルーニング法(IMP)は、ディープニューラルネットワーク(DNN)における重要なノード数を減らすことに成功している。プルーニングネットワークにおけるIMPの人気にもかかわらず、既存のIMPアルゴリズムの基本的な制限は、各プルーニング勾配に必要なトレーニング時間である。本稿では,ネットワーク層間の情報やフローをモニタし,トレーニング時間を最小化するIMPのための新しいテキストトッピング基準を提案する。
論文参考訳（メタデータ） (2025-01-26T16:40:59Z)
BCQQ: Batch-Constraint Quantum Q-Learning with Cyclic Data Re-uploading [2.502222151305252]
量子コンピューティングの最近の進歩は、量子モデルは古典的手法に比べて訓練に必要なデータが少ないことを示唆している。離散バッチ制約深部Q-ラーニングアルゴリズムにおいて,VQCを関数近似器として利用するバッチRLアルゴリズムを提案する。我々は,OpenAI CartPole環境におけるアルゴリズムの有効性を評価し,その性能を従来のニューラルネットワークに基づく離散BCQと比較した。
論文参考訳（メタデータ） (2023-04-27T16:43:01Z)
The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。 FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文参考訳（メタデータ） (2023-03-17T02:01:11Z)
Quantization-aware Interval Bound Propagation for Training Certifiably Robust Quantized Neural Networks [58.195261590442406]
我々は、逆向きに頑健な量子化ニューラルネットワーク(QNN)の訓練と証明の課題について検討する。近年の研究では、浮動小数点ニューラルネットワークが量子化後の敵攻撃に対して脆弱であることが示されている。本稿では、堅牢なQNNをトレーニングするための新しい方法であるQA-IBP(quantization-aware interval bound propagation)を提案する。
論文参考訳（メタデータ） (2022-11-29T13:32:38Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文参考訳（メタデータ） (2022-10-09T07:47:56Z)
M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文参考訳（メタデータ） (2022-09-16T09:20:35Z)
Trainability Preserving Neural Structured Pruning [64.65659982877891]
本稿では,正規化型構造化プルーニング法であるTPP(Traiability Preserving pruning)を提案する。 TPPは線形ネットワーク上での地中動力学的等尺性回復法と競合する。多くのトップパフォーマンスのフィルタプルーニング手法と比較して、優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2022-07-25T21:15:47Z)
Deep Q-network using reservoir computing with multi-layered readout [0.0]
リカレントニューラルネットワーク(RNN)に基づく強化学習(RL)は、文脈に依存したタスクの学習に使用される。 BPTTを使わずにエージェントを訓練するリプレイメモリ導入方式が提案されている。本稿では,読み出し層に多層ニューラルネットワークを適用することにより,本手法の性能が向上することを示す。
論文参考訳（メタデータ） (2022-03-03T00:32:55Z)
DNS: Determinantal Point Process Based Neural Network Sampler for Ensemble Reinforcement Learning [2.918938321104601]
本稿では,決定点プロセスに基づくニューラルネットワークサンプリングシステムであるDNSを提案する。 DNSは、トレーニングステップ毎にk-dppを使用して、バックプロパゲーションのためのニューラルネットワークのサブセットをサンプリングする。実験の結果, DNS拡張REDQは, 平均累積報酬においてベースラインREDQを上回っていることがわかった。
論文参考訳（メタデータ） (2022-01-31T17:08:39Z)
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。本稿では,新しいQ-Rex法とQ-RexDaReを提案する。 Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文参考訳（メタデータ） (2021-10-16T01:47:41Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)
A Practical Layer-Parallel Training Algorithm for Residual Networks [41.267919563145604]
ResNetのトレーニングのための勾配ベースのアルゴリズムは、通常、入力データの前方パスを必要とし、続いてパラメータを更新するために目的の勾配をバックプロパゲートする。本稿では,データ拡張を実現するための新しいシリアル並列ハイブリッドトレーニング戦略と,通信コスト削減のためのダウンサンプリングフィルタを提案する。
論文参考訳（メタデータ） (2020-09-03T06:03:30Z)
Deep Networks with Fast Retraining [0.0]
本稿では,深層畳み込みニューラルネットワーク(DCNN)学習のための新しいMP逆ベース高速リトレーニング戦略を提案する。各トレーニングでは、後進パスでトレーニングされた畳み込み層の数を制御するランダムな学習戦略が最初に利用される。そこで,MP 逆ベースバッチ・バイ・バッチ・ラーニング・ストラテジーを開発し,産業規模の計算資源を使わずにネットワークを実装できるようにした。
論文参考訳（メタデータ） (2020-08-13T15:17:38Z)
An FPGA-Based On-Device Reinforcement Learning Approach using Online Sequential Learning [2.99321624683618]
低コストFPGAデバイスのための軽量デバイス強化学習手法を提案する。バックプロパゲーションメソッドに依存しないオンデバイスラーニングアプローチに基づく、最近提案されたニューラルネットワークを活用する。提案手法は低コストFPGAプラットフォームとしてPYNQ-Z1ボード用に設計されている。
論文参考訳（メタデータ） (2020-05-10T12:37:26Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。