論文の概要: Real-Time Recurrent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.04830v1
- Date: Wed, 8 Nov 2023 16:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 14:56:55.607108
- Title: Real-Time Recurrent Reinforcement Learning
- Title(参考訳): リアルタイムリカレント強化学習
- Authors: Julian Lemmel, Radu Grosu
- Abstract要約: ランダムフィードバックローカルオンライン学習(RFLO)を利用した新しい強化学習アルゴリズムを提案する。
時間差強化学習の変種であるTD($lambda$)と適性トレースを組み合わせることで、生物学的に妥当で繰り返し発生するアクター批判的アルゴリズムを作成する。
提案手法はリアルタイムリカレント強化学習(RTRRL)と呼ばれ、哺乳類の脳の報酬経路を模倣する生物学的ニューラルネットワークの学習モデルとして機能する。
- 参考スコア(独自算出の注目度): 9.141050828506804
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in reinforcement learning, for partially-observable Markov
decision processes (POMDPs), rely on the biologically implausible
backpropagation through time algorithm (BPTT) to perform gradient-descent
optimisation. In this paper we propose a novel reinforcement learning algorithm
that makes use of random feedback local online learning (RFLO), a biologically
plausible approximation of realtime recurrent learning (RTRL) to compute the
gradients of the parameters of a recurrent neural network in an online manner.
By combining it with TD($\lambda$), a variant of temporaldifference
reinforcement learning with eligibility traces, we create a biologically
plausible, recurrent actor-critic algorithm, capable of solving discrete and
continuous control tasks in POMDPs. We compare BPTT, RTRL and RFLO as well as
different network architectures, and find that RFLO can perform just as well as
RTRL while exceeding even BPTT in terms of complexity. The proposed method,
called real-time recurrent reinforcement learning (RTRRL), serves as a model of
learning in biological neural networks mimicking reward pathways in the
mammalian brain.
- Abstract(参考訳): 部分観測可能なマルコフ決定プロセス(pomdps)のための強化学習の最近の進歩は、生物学的に予測不能なバックプロパゲーションを時間アルゴリズム(bptt)に頼り、勾配-思春期最適化を行う。
本稿では,リアルタイム・リカレント・ラーニング(rtrl)の生物学的に妥当な近似であるランダムフィードバックローカル・オンライン・ラーニング(rflo)を用いて,リカレントニューラルネットワークのパラメータの勾配をオンライン方式で計算する新しい強化学習アルゴリズムを提案する。
時間差強化学習の変種であるTD($\lambda$)と適応性トレースを組み合わせることで,POMDPの離散的かつ連続的な制御タスクを解くことができる,生物学的に妥当かつ反復的なアクター・クリティカルなアルゴリズムを構築する。
BPTT, RTRL, RFLOと異なるネットワークアーキテクチャを比較し, 複雑性の観点からも, RFLOはBPTTを超えながら, RTRLと同等に動作可能であることを確認した。
提案手法はリアルタイムリカレント強化学習(RTRRL)と呼ばれ、哺乳類の脳の報酬経路を模倣する生物学的ニューラルネットワークの学習モデルとして機能する。
関連論文リスト
- Real-Time Recurrent Learning using Trace Units in Reinforcement Learning [27.250024431890477]
リカレントニューラルネットワーク(RNN)は、部分的に観測可能な環境で表現を学ぶために使用される。
オンラインで学び、環境と継続的に交流するエージェントにとって、リアルタイム反復学習(RTRL)でRNNを訓練することが望ましい。
これらの洞察に基づいて、オンラインRLでRNNをトレーニングするための軽量で効果的なアプローチを提供します。
論文 参考訳(メタデータ) (2024-09-02T20:08:23Z) - Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。
従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。
本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:33:47Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Real-Time Progressive Learning: Accumulate Knowledge from Control with
Neural-Network-Based Selective Memory [2.8638167607890836]
リアルタイム・プログレッシブ・ラーニング(RTPL)と呼ばれる放射基底関数ニューラルネットワークに基づく学習制御方式を提案する。
RTPLは安定性と閉ループ性能を保証したシステムの未知のダイナミクスを学習する。
論文 参考訳(メタデータ) (2023-08-08T12:39:57Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - Efficient Real Time Recurrent Learning through combined activity and
parameter sparsity [0.5076419064097732]
時間によるバックプロパゲーション(BPTT)は、リカレントニューラルネットワーク(RNN)のトレーニングのための標準アルゴリズムである
BPTTはオンライン学習には不適であり、低リソースのリアルタイムシステムの実装に挑戦している。
実時間再帰学習(RTRL)の計算コストを削減できることを示す。
論文 参考訳(メタデータ) (2023-03-10T01:09:04Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - ETLP: Event-based Three-factor Local Plasticity for online learning with
neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。
また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文 参考訳(メタデータ) (2023-01-19T19:45:42Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。