論文の概要: Exploring the Promise and Limits of Real-Time Recurrent Learning
- arxiv url: http://arxiv.org/abs/2305.19044v2
- Date: Tue, 27 Feb 2024 03:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 23:01:04.247580
- Title: Exploring the Promise and Limits of Real-Time Recurrent Learning
- Title(参考訳): リアルタイム反復学習の約束と限界を探る
- Authors: Kazuki Irie, Anand Gopalakrishnan, J\"urgen Schmidhuber
- Abstract要約: シーケンス処理リカレントニューラルネットワーク(RNN)のためのリアルタイムリカレント学習(RTRL)は、時間によるバックプロパゲーション(BPTT)よりもある種の概念上の利点を提供する
DMLab-30, ProcGen, Atari-2600環境のいくつかのサブセットにおいて, RTRLとポリシー勾配を組み合わせたアクタ批判手法を検証した。
本システムは,10BフレームでトレーニングしたIMPALAおよびR2D2ベースラインに比較して,1.2B未満の環境フレームでトレーニングした。
- 参考スコア(独自算出の注目度): 14.162274619299902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time recurrent learning (RTRL) for sequence-processing recurrent neural
networks (RNNs) offers certain conceptual advantages over backpropagation
through time (BPTT). RTRL requires neither caching past activations nor
truncating context, and enables online learning. However, RTRL's time and space
complexity make it impractical. To overcome this problem, most recent work on
RTRL focuses on approximation theories, while experiments are often limited to
diagnostic settings. Here we explore the practical promise of RTRL in more
realistic settings. We study actor-critic methods that combine RTRL and policy
gradients, and test them in several subsets of DMLab-30, ProcGen, and
Atari-2600 environments. On DMLab memory tasks, our system trained on fewer
than 1.2 B environmental frames is competitive with or outperforms well-known
IMPALA and R2D2 baselines trained on 10 B frames. To scale to such challenging
tasks, we focus on certain well-known neural architectures with element-wise
recurrence, allowing for tractable RTRL without approximation. Importantly, we
also discuss rarely addressed limitations of RTRL in real-world applications,
such as its complexity in the multi-layer case.
- Abstract(参考訳): シーケンス処理リカレントニューラルネットワーク(rnns)のためのリアルタイムリカレント学習(rtrl)は、バックプロパゲーション時間(bptt)よりも概念上の利点を提供する。
RTRLは過去のアクティベーションやトラッピングコンテキストをキャッシュする必要がなく、オンライン学習を可能にする。
しかし、rtrlの時間と空間の複雑さは実用的でない。
この問題を解決するために、RTRLに関する最近の研究は近似理論に焦点を当てているが、実験は診断設定に限られることが多い。
本稿では,より現実的な環境でのRTRLの実践的可能性について考察する。
DMLab-30, ProcGen, Atari-2600環境のいくつかのサブセットにおいて, RTRLとポリシー勾配を組み合わせたアクタ批判手法を検証した。
DMLabのメモリタスクでは、1.2B未満の環境フレームでトレーニングしたシステムは、よく知られたIMPALAとR2D2のベースラインで10Bフレームでトレーニングしたよりも優れている。
このような困難なタスクにスケールするために、要素毎の繰り返しを伴う既知のニューラルアーキテクチャにフォーカスし、rtrlを近似することなく扱いやすいものにした。
重要なのは、マルチレイヤの場合の複雑さなど、実世界のアプリケーションにおけるRTRLの制限にほとんど対処しないことだ。
関連論文リスト
- Real-Time Recurrent Reinforcement Learning [7.737685867200335]
RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティカルなアルゴリズム,(2)メタRLネットワークをトレーニングするために時間差分学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムであるRFLO学習の3つの部分から構成される。
論文 参考訳(メタデータ) (2023-11-08T16:56:16Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Efficient Real Time Recurrent Learning through combined activity and
parameter sparsity [0.5076419064097732]
時間によるバックプロパゲーション(BPTT)は、リカレントニューラルネットワーク(RNN)のトレーニングのための標準アルゴリズムである
BPTTはオンライン学習には不適であり、低リソースのリアルタイムシステムの実装に挑戦している。
実時間再帰学習(RTRL)の計算コストを削減できることを示す。
論文 参考訳(メタデータ) (2023-03-10T01:09:04Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge
Computing Migrations [55.131858975133085]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Deep Q-network using reservoir computing with multi-layered readout [0.0]
リカレントニューラルネットワーク(RNN)に基づく強化学習(RL)は、文脈に依存したタスクの学習に使用される。
BPTTを使わずにエージェントを訓練するリプレイメモリ導入方式が提案されている。
本稿では,読み出し層に多層ニューラルネットワークを適用することにより,本手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T00:32:55Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - A Practical Sparse Approximation for Real Time Recurrent Learning [38.19296522866088]
Real Time Recurrent Learning (RTRL)は、履歴ストレージの必要性をなくし、オンラインの重み更新を可能にする。
RTRL 影響行列に Sparse n-step Approximation (SnAp) を導入する。
高度にスパースなネットワークでは、n=2のSnApは引き続きトラクタブルであり、更新がオンラインで行われる場合の学習速度において、時間を通してバックプロパゲーションを上回ります。
論文 参考訳(メタデータ) (2020-06-12T14:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。