論文の概要: Real-Time Recurrent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.04830v2
- Date: Thu, 28 Mar 2024 10:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-29 21:33:29.776754
- Title: Real-Time Recurrent Reinforcement Learning
- Title(参考訳): 実時間繰り返し強化学習
- Authors: Julian Lemmel, Radu Grosu,
- Abstract要約: RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティカルなアルゴリズム,(2)メタRLネットワークをトレーニングするために時間差分学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムであるRFLO学習の3つの部分から構成される。
- 参考スコア(独自算出の注目度): 7.737685867200335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose real-time recurrent reinforcement learning (RTRRL), a biologically plausible approach to solving discrete and continuous control tasks in partially-observable markov decision processes (POMDPs). RTRRL consists of three parts: (1) a Meta-RL RNN architecture, implementing on its own an actor-critic algorithm; (2) an outer reinforcement learning algorithm, exploiting temporal difference learning and dutch eligibility traces to train the Meta-RL network; and (3) random-feedback local-online (RFLO) learning, an online automatic differentiation algorithm for computing the gradients with respect to parameters of the network.Our experimental results show that by replacing the optimization algorithm in RTRRL with the biologically implausible back propagation through time (BPTT), or real-time recurrent learning (RTRL), one does not improve returns, while matching the computational complexity for BPTT, and even increasing complexity for RTRL. RTRRL thus serves as a model of learning in biological neural networks, mimicking reward pathways in the basal ganglia.
- Abstract(参考訳): 本稿では,部分観測可能なマルコフ決定プロセス(POMDP)における離散的かつ連続的な制御課題を解決するための生物学的に妥当なアプローチであるリアルタイムリカレント強化学習(RTRRL)を提案する。
RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティック・アルゴリズム,(2)メタRLネットワークのトレーニングに時間差学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ランダムフィードバックローカルオンライン学習(RFLO)学習,ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズム,の3つの部分から構成される。
RTRRLは、基底神経節の報酬経路を模倣し、生物学的ニューラルネットワークにおける学習のモデルとして機能する。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Real-Time Recurrent Learning using Trace Units in Reinforcement Learning [27.250024431890477]
リカレントニューラルネットワーク(RNN)は、部分的に観測可能な環境で表現を学ぶために使用される。
オンラインで学び、環境と継続的に交流するエージェントにとって、リアルタイム反復学習(RTRL)でRNNを訓練することが望ましい。
これらの洞察に基づいて、オンラインRLでRNNをトレーニングするための軽量で効果的なアプローチを提供します。
論文 参考訳(メタデータ) (2024-09-02T20:08:23Z) - Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。
従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。
本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:33:47Z) - Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning [17.714908233024847]
強化学習(RL)エージェントは、タスク環境とのインタラクションを通じてニューラルネットワークパラメータを更新することで、新しいタスクの解決を学ぶ。
最近の研究は、一部のRLエージェントが、特定の事前訓練手順の後に、パラメーター更新なしで見知らぬ新しいタスクを解くことができることを示した。
論文 参考訳(メタデータ) (2024-05-22T17:38:16Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Real-Time Progressive Learning: Accumulate Knowledge from Control with
Neural-Network-Based Selective Memory [2.8638167607890836]
リアルタイム・プログレッシブ・ラーニング(RTPL)と呼ばれる放射基底関数ニューラルネットワークに基づく学習制御方式を提案する。
RTPLは安定性と閉ループ性能を保証したシステムの未知のダイナミクスを学習する。
論文 参考訳(メタデータ) (2023-08-08T12:39:57Z) - Deep Active Learning with Structured Neural Depth Search [18.180995603975422]
Active-iNASは、複数のモデルを訓練し、各アクティブラーニングサイクルの後に、その後のサンプルをクエリする最適な一般化性能でモデルを選択する。
本稿では,SVI(Structured Variational Inference)あるいはSNDS(Structured Neural Deep Search)と呼ばれる手法を用いた新しいアクティブ戦略を提案する。
同時に、理論上は、平均場推定に基づく現在のVIベースの手法が性能を低下させる可能性があることを実証している。
論文 参考訳(メタデータ) (2023-06-05T12:00:12Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z) - Efficient Real Time Recurrent Learning through combined activity and
parameter sparsity [0.5076419064097732]
時間によるバックプロパゲーション(BPTT)は、リカレントニューラルネットワーク(RNN)のトレーニングのための標準アルゴリズムである
BPTTはオンライン学習には不適であり、低リソースのリアルタイムシステムの実装に挑戦している。
実時間再帰学習(RTRL)の計算コストを削減できることを示す。
論文 参考訳(メタデータ) (2023-03-10T01:09:04Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - ETLP: Event-based Three-factor Local Plasticity for online learning with
neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。
また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文 参考訳(メタデータ) (2023-01-19T19:45:42Z) - What deep reinforcement learning tells us about human motor learning and
vice-versa [24.442174952832108]
本稿では,近年の深部RL法が神経科学,エラーベース学習において支配的な運動学習の枠組みとどのように一致するかを示す。
我々は、モデルに基づく決定論的ポリシー勾配(MB-DPG)という新しいディープRLアルゴリズムを導入する。
MB-DPGは、観察された行動の結果に明示的に依存することで、エラーベースの学習からインスピレーションを得ている。
論文 参考訳(メタデータ) (2022-08-23T11:56:49Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。