論文の概要: Real-Time Recurrent Learning using Trace Units in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.01449v2
- Date: Wed, 30 Oct 2024 04:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 03:23:46.711995
- Title: Real-Time Recurrent Learning using Trace Units in Reinforcement Learning
- Title(参考訳): 強化学習におけるトレース単位を用いたリアルタイム反復学習
- Authors: Esraa Elelimy, Adam White, Michael Bowling, Martha White,
- Abstract要約: リカレントニューラルネットワーク(RNN)は、部分的に観測可能な環境で表現を学ぶために使用される。
オンラインで学び、環境と継続的に交流するエージェントにとって、リアルタイム反復学習(RTRL)でRNNを訓練することが望ましい。
これらの洞察に基づいて、オンラインRLでRNNをトレーニングするための軽量で効果的なアプローチを提供します。
- 参考スコア(独自算出の注目度): 27.250024431890477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent Neural Networks (RNNs) are used to learn representations in partially observable environments. For agents that learn online and continually interact with the environment, it is desirable to train RNNs with real-time recurrent learning (RTRL); unfortunately, RTRL is prohibitively expensive for standard RNNs. A promising direction is to use linear recurrent architectures (LRUs), where dense recurrent weights are replaced with a complex-valued diagonal, making RTRL efficient. In this work, we build on these insights to provide a lightweight but effective approach for training RNNs in online RL. We introduce Recurrent Trace Units (RTUs), a small modification on LRUs that we nonetheless find to have significant performance benefits over LRUs when trained with RTRL. We find RTUs significantly outperform other recurrent architectures across several partially observable environments while using significantly less computation.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)は、部分的に観測可能な環境で表現を学ぶために使用される。
オンライン学習や環境との継続的な対話を行うエージェントに対しては、RTRL(Real-time Recurrent Learning)を用いてRNNをトレーニングすることが望ましい。
有望な方向はリニアリカレントアーキテクチャ(LRU)を使用することで、高密度リカレント重みを複素値の対角線に置き換え、RTRLを効率的にする。
本研究では、これらの知見に基づいて、オンラインRLにおけるRNNのトレーニングに軽量で効果的なアプローチを提供する。
RTU(Recurrent Trace Units)は,RTLのトレーニングにおいて,LRUに対して大きなパフォーマンス上のメリットがあるにもかかわらず,LRUに対する小さな修正である。
RTUは、いくつかの部分観測可能な環境において、計算量を大幅に減らしながら、他の再帰的アーキテクチャを著しく上回っている。
関連論文リスト
- Real-Time Recurrent Reinforcement Learning [7.737685867200335]
RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティカルなアルゴリズム,(2)メタRLネットワークをトレーニングするために時間差分学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムであるRFLO学習の3つの部分から構成される。
論文 参考訳(メタデータ) (2023-11-08T16:56:16Z) - Universal Approximation of Linear Time-Invariant (LTI) Systems through RNNs: Power of Randomness in Reservoir Computing [19.995241682744567]
貯留層計算(Reservoir Computing, RC)は、リカレントウェイトがランダム化され、トレーニングされていない特別なRNNである。
RCは一般線形時間不変系(LTI)を普遍的に近似できることを示す。
論文 参考訳(メタデータ) (2023-08-04T17:04:13Z) - Exploring the Promise and Limits of Real-Time Recurrent Learning [14.162274619299902]
シーケンス処理リカレントニューラルネットワーク(RNN)のためのリアルタイムリカレント学習(RTRL)は、時間によるバックプロパゲーション(BPTT)よりもある種の概念上の利点を提供する
DMLab-30, ProcGen, Atari-2600環境のいくつかのサブセットにおいて, RTRLとポリシー勾配を組み合わせたアクタ批判手法を検証した。
本システムは,10BフレームでトレーニングしたIMPALAおよびR2D2ベースラインに比較して,1.2B未満の環境フレームでトレーニングした。
論文 参考訳(メタデータ) (2023-05-30T13:59:21Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Online learning of windmill time series using Long Short-term Cognitive
Networks [58.675240242609064]
風車農場で生成されたデータの量は、オンライン学習が従うべき最も有効な戦略となっている。
我々はLong Short-term Cognitive Networks (LSTCNs) を用いて、オンライン環境での風車時系列を予測する。
提案手法は,単純なRNN,長期記憶,Gated Recurrent Unit,Hidden Markov Modelに対して最も低い予測誤差を報告した。
論文 参考訳(メタデータ) (2021-07-01T13:13:24Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - A Practical Sparse Approximation for Real Time Recurrent Learning [38.19296522866088]
Real Time Recurrent Learning (RTRL)は、履歴ストレージの必要性をなくし、オンラインの重み更新を可能にする。
RTRL 影響行列に Sparse n-step Approximation (SnAp) を導入する。
高度にスパースなネットワークでは、n=2のSnApは引き続きトラクタブルであり、更新がオンラインで行われる場合の学習速度において、時間を通してバックプロパゲーションを上回ります。
論文 参考訳(メタデータ) (2020-06-12T14:38:15Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z) - Achieving Online Regression Performance of LSTMs with Simple RNNs [0.0]
本稿では,パラメータ数に線形時間を要する1次学習アルゴリズムを提案する。
SRNNが我々のアルゴリズムでトレーニングされている場合、LSTMと非常によく似た回帰性能を2~3倍の短いトレーニング時間で提供することを示す。
論文 参考訳(メタデータ) (2020-05-16T11:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。