論文の概要: Real-Time Recurrent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.04830v1
- Date: Wed, 8 Nov 2023 16:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 14:56:55.607108
- Title: Real-Time Recurrent Reinforcement Learning
- Title(参考訳): リアルタイムリカレント強化学習
- Authors: Julian Lemmel, Radu Grosu
- Abstract要約: ランダムフィードバックローカルオンライン学習(RFLO)を利用した新しい強化学習アルゴリズムを提案する。
時間差強化学習の変種であるTD($lambda$)と適性トレースを組み合わせることで、生物学的に妥当で繰り返し発生するアクター批判的アルゴリズムを作成する。
提案手法はリアルタイムリカレント強化学習(RTRRL)と呼ばれ、哺乳類の脳の報酬経路を模倣する生物学的ニューラルネットワークの学習モデルとして機能する。
- 参考スコア(独自算出の注目度): 9.141050828506804
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in reinforcement learning, for partially-observable Markov
decision processes (POMDPs), rely on the biologically implausible
backpropagation through time algorithm (BPTT) to perform gradient-descent
optimisation. In this paper we propose a novel reinforcement learning algorithm
that makes use of random feedback local online learning (RFLO), a biologically
plausible approximation of realtime recurrent learning (RTRL) to compute the
gradients of the parameters of a recurrent neural network in an online manner.
By combining it with TD($\lambda$), a variant of temporaldifference
reinforcement learning with eligibility traces, we create a biologically
plausible, recurrent actor-critic algorithm, capable of solving discrete and
continuous control tasks in POMDPs. We compare BPTT, RTRL and RFLO as well as
different network architectures, and find that RFLO can perform just as well as
RTRL while exceeding even BPTT in terms of complexity. The proposed method,
called real-time recurrent reinforcement learning (RTRRL), serves as a model of
learning in biological neural networks mimicking reward pathways in the
mammalian brain.
- Abstract(参考訳): 部分観測可能なマルコフ決定プロセス(pomdps)のための強化学習の最近の進歩は、生物学的に予測不能なバックプロパゲーションを時間アルゴリズム(bptt)に頼り、勾配-思春期最適化を行う。
本稿では,リアルタイム・リカレント・ラーニング(rtrl)の生物学的に妥当な近似であるランダムフィードバックローカル・オンライン・ラーニング(rflo)を用いて,リカレントニューラルネットワークのパラメータの勾配をオンライン方式で計算する新しい強化学習アルゴリズムを提案する。
時間差強化学習の変種であるTD($\lambda$)と適応性トレースを組み合わせることで,POMDPの離散的かつ連続的な制御タスクを解くことができる,生物学的に妥当かつ反復的なアクター・クリティカルなアルゴリズムを構築する。
BPTT, RTRL, RFLOと異なるネットワークアーキテクチャを比較し, 複雑性の観点からも, RFLOはBPTTを超えながら, RTRLと同等に動作可能であることを確認した。
提案手法はリアルタイムリカレント強化学習(RTRRL)と呼ばれ、哺乳類の脳の報酬経路を模倣する生物学的ニューラルネットワークの学習モデルとして機能する。
関連論文リスト
- Real-Time Progressive Learning: Accumulate Knowledge from Control with
Neural-Network-Based Selective Memory [2.8638167607890836]
リアルタイム・プログレッシブ・ラーニング(RTPL)と呼ばれる放射基底関数ニューラルネットワークに基づく学習制御方式を提案する。
RTPLは安定性と閉ループ性能を保証したシステムの未知のダイナミクスを学習する。
論文 参考訳(メタデータ) (2023-08-08T12:39:57Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - Scalable Real-Time Recurrent Learning Using Columnar-Constructive
Networks [19.248060562241296]
リアルタイム反復学習をスケーラブルにする2つの制約を提案する。
ネットワークを独立したモジュールに分解するか、段階的にネットワークを学習することで、RTRLをパラメータ数と線形にスケールできることを示す。
本稿では,動物学習とアタリ2600ゲームに対する事前学習ポリシーのポリシー評価により,Trncated-BPTTに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-01-20T23:17:48Z) - The Predictive Forward-Forward Algorithm [79.07468367923619]
本稿では,ニューラルネットワークにおける信頼割当を行うための予測フォワード(PFF)アルゴリズムを提案する。
我々は,有向生成回路と表現回路を同時に同時に学習する,新しい動的リカレントニューラルネットワークを設計する。
PFFは効率よく学習し、学習信号を伝達し、フォワードパスのみでシナプスを更新する。
論文 参考訳(メタデータ) (2023-01-04T05:34:48Z) - Biologically Plausible Variational Policy Gradient with Spiking
Recurrent Winner-Take-All Networks [4.833815605196964]
Reward-modulated spike-timing-dependent plasticity (RSTDP) はエネルギー効率に有望な最近の分岐である。
本稿では,グローバルな政策勾配から局所学習規則を導出するSVPG法を提案する。
MNIST分類とGym InPendulumの実験では,SVPGは様々なノイズに対して頑健性を実現する。
論文 参考訳(メタデータ) (2022-10-21T08:19:14Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Credit Assignment in Neural Networks through Deep Feedback Control [59.14935871979047]
ディープフィードバックコントロール(Deep Feedback Control, DFC)は、フィードバックコントローラを使用して、望ましい出力ターゲットにマッチするディープニューラルネットワークを駆動し、クレジット割り当てに制御信号を使用する新しい学習方法である。
学習規則は空間と時間において完全に局所的であり、幅広い接続パターンに対するガウス・ニュートンの最適化を近似する。
さらに,DFCと皮質錐体ニューロンのマルチコンパートメントモデルと,局所的な電圧依存性のシナプス可塑性規則を関連づける。
論文 参考訳(メタデータ) (2021-06-15T05:30:17Z) - MAP Propagation Algorithm: Faster Learning with a Team of Reinforcement
Learning Agents [0.0]
ニューラルネットワークをトレーニングする別の方法は、ネットワークの各ユニットを強化学習エージェントとして扱うことである。
本稿では,この分散を著しく低減するMAP伝搬という新しいアルゴリズムを提案する。
当社の作業は、深層強化学習におけるエージェントチームの広範な適用を可能にします。
論文 参考訳(メタデータ) (2020-10-15T17:17:39Z) - Online Spatio-Temporal Learning in Deep Neural Networks [1.6624384368855523]
オンライン学習は、最近研究コミュニティの注目を集め、BPTTを近似するアプローチや、SNNに適用する生物学的に有望なスキームに焦点をあてている。
ここでは、空間的および時間的勾配成分の明確な分離に基づく別の視点を示す。
私たちは、オンラインスパイキング時間学習(OSTL)という、深層SNNのための新しいオンライン学習アルゴリズムの第一原理から派生した。
浅いネットワークの場合、OSTLはBPTTと同等の勾配であり、BPTT同値勾配を持つSNNのオンライントレーニングを初めて行うことができる。さらに、提案された定式化はSNNアーキテクチャのクラスを公開する。
論文 参考訳(メタデータ) (2020-07-24T18:10:18Z) - Recurrent Neural Network Learning of Performance and Intrinsic
Population Dynamics from Sparse Neural Data [77.92736596690297]
本稿では,RNNの入出力動作だけでなく,内部ネットワークのダイナミクスも学習できる新しいトレーニング戦略を提案する。
提案手法は、RNNを訓練し、生理学的にインスパイアされた神経モデルの内部ダイナミクスと出力信号を同時に再現する。
注目すべきは、トレーニングアルゴリズムがニューロンの小さなサブセットの活性に依存する場合であっても、内部動力学の再現が成功することである。
論文 参考訳(メタデータ) (2020-05-05T14:16:54Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。