Fugu-MT 論文翻訳(概要): Scalable Real-Time Recurrent Learning Using Sparse Connections and Selective Learning

論文の概要: Scalable Real-Time Recurrent Learning Using Sparse Connections and Selective Learning

arxiv url: http://arxiv.org/abs/2302.05326v2
Date: Thu, 27 Apr 2023 19:09:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-01 17:01:51.752648
Title: Scalable Real-Time Recurrent Learning Using Sparse Connections and Selective Learning
Title（参考訳）: スパース接続と選択学習を用いたスケーラブルリアルタイム並行学習
Authors: Khurram Javed, Haseeb Shah, Rich Sutton, Martha White
Abstract要約: 感覚観察による状態構築は、強化学習エージェントの重要な構成要素である。 BPTTは勾配を計算する前に完全な観測シーケンスを必要としており、オンラインリアルタイム更新には適していない。 RTRLはオンライン更新を行うことができるが、大規模なネットワークではスケールが不十分である。ネットワークを独立したモジュールに分解するか,あるいはネットワークを漸進的に学習することにより,パラメータの数を線形にスケールできることを示す。
参考スコア（独自算出の注目度）: 24.22676975178131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State construction from sensory observations is an important component of a reinforcement learning agent. One solution for state construction is to use recurrent neural networks. Back-propagation through time (BPTT), and real-time recurrent learning (RTRL) are two popular gradient-based methods for recurrent learning. BPTT requires the complete sequence of observations before computing gradients and is unsuitable for online real-time updates. RTRL can do online updates but scales poorly to large networks. In this paper, we propose two constraints that make RTRL scalable. We show that by either decomposing the network into independent modules, or learning the network incrementally, we can make RTRL scale linearly with the number of parameters. Unlike prior scalable gradient estimation algorithms, such as UORO and Truncated-BPTT, our algorithms do not add noise or bias to the gradient estimate. Instead, they trade-off the functional capacity of the network to achieve scalable learning. We demonstrate the effectiveness of our approach over Truncated-BPTT on a benchmark inspired by animal learning and by doing policy evaluation for pre-trained Rainbow-DQN agents in the Arcade Learning Environment (ALE).
Abstract（参考訳）: 感覚観察による状態構築は強化学習エージェントの重要な構成要素である。状態構築のソリューションのひとつは、リカレントニューラルネットワークを使用することだ。時間によるバックプロパゲーション(BPTT)とリアルタイムリカレント学習(RTRL)は、再カレント学習のための2つの一般的な勾配に基づく手法である。 BPTTは勾配を計算する前に完全な観測シーケンスを必要とし、オンラインリアルタイム更新には適さない。 rtrlはオンライン更新は可能だが、大規模ネットワークへのスケール性は低い。本稿ではRTRLをスケーラブルにする2つの制約を提案する。ネットワークを独立したモジュールに分解するか,あるいはネットワークを段階的に学習することで,rtrlをパラメータ数で線形にスケールできることを示す。 UOROやTrncated-BPTTのような従来のスケーラブルな勾配推定アルゴリズムとは異なり、我々のアルゴリズムは勾配推定にノイズやバイアスを加えない。代わりに、スケーラブルな学習を実現するために、ネットワークの機能容量をトレードオフする。動物学習にインスパイアされたベンチマークと,アーケード学習環境(ALE)における事前学習型レインボーDQNエージェントのポリシー評価により,Trncated-BPTTに対するアプローチの有効性を実証した。

関連論文リスト

Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。 BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-29T14:45:52Z)
Gradient-Free Training of Recurrent Neural Networks using Random Perturbations [1.1742364055094265]
リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力のために、計算の潜在能力を秘めている。時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることでバックプロパゲーションアルゴリズムを拡張する。 BPTTは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。 BPTTと競合するRNNにおける摂動学習に対する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-05-14T21:15:29Z)
Real-Time Recurrent Reinforcement Learning [7.737685867200335]
RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティカルなアルゴリズム,(2)メタRLネットワークをトレーニングするために時間差分学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムであるRFLO学習の3つの部分から構成される。
論文参考訳（メタデータ） (2023-11-08T16:56:16Z)
Efficient Real Time Recurrent Learning through combined activity and parameter sparsity [0.5076419064097732]
時間によるバックプロパゲーション(BPTT)は、リカレントニューラルネットワーク(RNN)のトレーニングのための標準アルゴリズムである BPTTはオンライン学習には不適であり、低リソースのリアルタイムシステムの実装に挑戦している。実時間再帰学習(RTRL)の計算コストを削減できることを示す。
論文参考訳（メタデータ） (2023-03-10T01:09:04Z)
Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文参考訳（メタデータ） (2023-02-28T05:01:01Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文参考訳（メタデータ） (2022-10-09T07:47:56Z)
Scalable Online Recurrent Learning Using Columnar Neural Networks [35.584855852204385]
RTRLと呼ばれるアルゴリズムは、オンラインのリカレントネットワークの勾配を計算できるが、大規模なネットワークでは計算が困難である。我々は,O(n)$演算とステップ毎のメモリを用いて,リアルタイムに繰り返し学習の勾配を近似するクレジット割り当てアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-09T23:45:13Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)
RIFLE: Backpropagation in Depth for Deep Transfer Learning through Re-Initializing the Fully-connected LayEr [60.07531696857743]
事前訓練されたモデルを用いたディープ畳み込みニューラルネットワーク(CNN)の微調整は、より大きなデータセットから学習した知識をターゲットタスクに転送するのに役立つ。転送学習環境におけるバックプロパゲーションを深める戦略であるRIFLEを提案する。 RIFLEは、深いCNN層の重み付けに意味のあるアップデートをもたらし、低レベルの機能学習を改善する。
論文参考訳（メタデータ） (2020-07-07T11:27:43Z)
A Practical Sparse Approximation for Real Time Recurrent Learning [38.19296522866088]
Real Time Recurrent Learning (RTRL)は、履歴ストレージの必要性をなくし、オンラインの重み更新を可能にする。 RTRL 影響行列に Sparse n-step Approximation (SnAp) を導入する。高度にスパースなネットワークでは、n=2のSnApは引き続きトラクタブルであり、更新がオンラインで行われる場合の学習速度において、時間を通してバックプロパゲーションを上回ります。
論文参考訳（メタデータ） (2020-06-12T14:38:15Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。