論文の概要: Real-Time Recurrent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.04830v3
- Date: Thu, 13 Mar 2025 10:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 19:21:32.791784
- Title: Real-Time Recurrent Reinforcement Learning
- Title(参考訳): 実時間繰り返し強化学習
- Authors: Julian Lemmel, Radu Grosu,
- Abstract要約: 部分観測可能なマルコフ決定過程(POMDP)における課題解決のための生物学的に妥当なRLフレームワークを提案する。
提案アルゴリズムは,(1)哺乳類の基底神経節に類似したMeta-RLアーキテクチャ,(2)時間差学習と適応性トレースを利用した生物学的に妥当な強化学習アルゴリズム,(3)共有されたリカレントネットワークバックボーンのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムの3つの積分部分を組み合わせた。
- 参考スコア(独自算出の注目度): 7.737685867200335
- License:
- Abstract: We introduce a biologically plausible RL framework for solving tasks in partially observable Markov decision processes (POMDPs). The proposed algorithm combines three integral parts: (1) A Meta-RL architecture, resembling the mammalian basal ganglia; (2) A biologically plausible reinforcement learning algorithm, exploiting temporal difference learning and eligibility traces to train the policy and the value-function; (3) An online automatic differentiation algorithm for computing the gradients with respect to parameters of a shared recurrent network backbone. Our experimental results show that the method is capable of solving a diverse set of partially observable reinforcement learning tasks. The algorithm we call real-time recurrent reinforcement learning (RTRRL) serves as a model of learning in biological neural networks, mimicking reward pathways in the basal ganglia.
- Abstract(参考訳): 本稿では,部分的に観測可能なマルコフ決定プロセス(POMDP)における課題を解くための生物学的に検証可能なRLフレームワークを提案する。
提案アルゴリズムは,(1) 哺乳類の基底神経節に類似したメタ-RLアーキテクチャ,(2) 時間差学習と適応性トレースを利用した生物学的に妥当な強化学習アルゴリズム,(3) 共有されたリカレントネットワークバックボーンのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムの3つの積分部分を組み合わせた。
実験結果から,本手法は部分観測可能な強化学習タスクを多種多様な方法で解くことができることがわかった。
リアルタイムリカレント強化学習(RTRRL)と呼ばれるアルゴリズムは、基底神経節の報酬経路を模倣して、生物学的ニューラルネットワークにおける学習のモデルとして機能する。
関連論文リスト
- Real-Time Recurrent Learning using Trace Units in Reinforcement Learning [27.250024431890477]
リカレントニューラルネットワーク(RNN)は、部分的に観測可能な環境で表現を学ぶために使用される。
オンラインで学び、環境と継続的に交流するエージェントにとって、リアルタイム反復学習(RTRL)でRNNを訓練することが望ましい。
これらの洞察に基づいて、オンラインRLでRNNをトレーニングするための軽量で効果的なアプローチを提供します。
論文 参考訳(メタデータ) (2024-09-02T20:08:23Z) - Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。
従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。
本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:33:47Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Real-Time Progressive Learning: Accumulate Knowledge from Control with
Neural-Network-Based Selective Memory [2.8638167607890836]
リアルタイム・プログレッシブ・ラーニング(RTPL)と呼ばれる放射基底関数ニューラルネットワークに基づく学習制御方式を提案する。
RTPLは安定性と閉ループ性能を保証したシステムの未知のダイナミクスを学習する。
論文 参考訳(メタデータ) (2023-08-08T12:39:57Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - Efficient Real Time Recurrent Learning through combined activity and
parameter sparsity [0.5076419064097732]
時間によるバックプロパゲーション(BPTT)は、リカレントニューラルネットワーク(RNN)のトレーニングのための標準アルゴリズムである
BPTTはオンライン学習には不適であり、低リソースのリアルタイムシステムの実装に挑戦している。
実時間再帰学習(RTRL)の計算コストを削減できることを示す。
論文 参考訳(メタデータ) (2023-03-10T01:09:04Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - ETLP: Event-based Three-factor Local Plasticity for online learning with
neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。
また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文 参考訳(メタデータ) (2023-01-19T19:45:42Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。