Fugu-MT 論文翻訳(概要): Real-Time Recurrent Reinforcement Learning

論文の概要: Real-Time Recurrent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2311.04830v1
Date: Wed, 8 Nov 2023 16:56:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 14:56:55.607108
Title: Real-Time Recurrent Reinforcement Learning
Title（参考訳）: リアルタイムリカレント強化学習
Authors: Julian Lemmel, Radu Grosu
Abstract要約: ランダムフィードバックローカルオンライン学習(RFLO)を利用した新しい強化学習アルゴリズムを提案する。時間差強化学習の変種であるTD($lambda$)と適性トレースを組み合わせることで、生物学的に妥当で繰り返し発生するアクター批判的アルゴリズムを作成する。提案手法はリアルタイムリカレント強化学習(RTRRL)と呼ばれ、哺乳類の脳の報酬経路を模倣する生物学的ニューラルネットワークの学習モデルとして機能する。
参考スコア（独自算出の注目度）: 9.141050828506804
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advances in reinforcement learning, for partially-observable Markov decision processes (POMDPs), rely on the biologically implausible backpropagation through time algorithm (BPTT) to perform gradient-descent optimisation. In this paper we propose a novel reinforcement learning algorithm that makes use of random feedback local online learning (RFLO), a biologically plausible approximation of realtime recurrent learning (RTRL) to compute the gradients of the parameters of a recurrent neural network in an online manner. By combining it with TD($\lambda$), a variant of temporaldifference reinforcement learning with eligibility traces, we create a biologically plausible, recurrent actor-critic algorithm, capable of solving discrete and continuous control tasks in POMDPs. We compare BPTT, RTRL and RFLO as well as different network architectures, and find that RFLO can perform just as well as RTRL while exceeding even BPTT in terms of complexity. The proposed method, called real-time recurrent reinforcement learning (RTRRL), serves as a model of learning in biological neural networks mimicking reward pathways in the mammalian brain.
Abstract（参考訳）: 部分観測可能なマルコフ決定プロセス(pomdps)のための強化学習の最近の進歩は、生物学的に予測不能なバックプロパゲーションを時間アルゴリズム(bptt)に頼り、勾配-思春期最適化を行う。本稿では,リアルタイム・リカレント・ラーニング(rtrl)の生物学的に妥当な近似であるランダムフィードバックローカル・オンライン・ラーニング(rflo)を用いて,リカレントニューラルネットワークのパラメータの勾配をオンライン方式で計算する新しい強化学習アルゴリズムを提案する。時間差強化学習の変種であるTD($\lambda$)と適応性トレースを組み合わせることで,POMDPの離散的かつ連続的な制御タスクを解くことができる,生物学的に妥当かつ反復的なアクター・クリティカルなアルゴリズムを構築する。 BPTT, RTRL, RFLOと異なるネットワークアーキテクチャを比較し, 複雑性の観点からも, RFLOはBPTTを超えながら, RTRLと同等に動作可能であることを確認した。提案手法はリアルタイムリカレント強化学習(RTRRL)と呼ばれ、哺乳類の脳の報酬経路を模倣する生物学的ニューラルネットワークの学習モデルとして機能する。

関連論文リスト

Binarized Neural Networks Converge Toward Algorithmic Simplicity: Empirical Support for the Learning-as-Compression Hypothesis [36.24954635616374]
本稿では,二元化ニューラルネットワーク(BNN)を第1のプロキシとして用いて,アルゴリズム情報理論へのシフトを提案する。ブロック分解法 (BDM) を適用し, エントロピーよりもトレーニング中の構造変化をより綿密に追跡した。これらの結果は、学習が構造化正規性の進行的内部化に対応するアルゴリズム圧縮の過程としてのトレーニングの観点を支持する。
論文参考訳（メタデータ） (2025-05-27T02:51:36Z)
Dendritic Localized Learning: Toward Biologically Plausible Algorithm [41.362676232853765]
バックプロパゲーションはニューラルネットワークのトレーニングの基礎であり、ディープラーニングの成功の重要な要因である。バックプロパゲーションは、重み対称性、大域的エラー信号への依存、訓練の二重相の性質の3つの主要な制限により、難題となっている。本稿では,これらの課題を克服するための新しい学習アルゴリズムであるDendritic Localized Learning (DLL)を提案する。
論文参考訳（メタデータ） (2025-01-17T06:35:20Z)
A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文参考訳（メタデータ） (2024-09-18T14:57:13Z)
Real-Time Recurrent Learning using Trace Units in Reinforcement Learning [27.250024431890477]
リカレントニューラルネットワーク(RNN)は、部分的に観測可能な環境で表現を学ぶために使用される。オンラインで学び、環境と継続的に交流するエージェントにとって、リアルタイム反復学習(RTRL)でRNNを訓練することが望ましい。これらの洞察に基づいて、オンラインRLでRNNをトレーニングするための軽量で効果的なアプローチを提供します。
論文参考訳（メタデータ） (2024-09-02T20:08:23Z)
Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文参考訳（メタデータ） (2024-05-24T09:33:47Z)
Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning [17.714908233024847]
強化学習(RL)エージェントは、タスク環境とのインタラクションを通じてニューラルネットワークパラメータを更新することで、新しいタスクの解決を学ぶ。最近の研究は、一部のRLエージェントが、特定の事前訓練手順の後に、パラメーター更新なしで見知らぬ新しいタスクを解くことができることを示した。
論文参考訳（メタデータ） (2024-05-22T17:38:16Z)
Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-02T01:36:13Z)
Real-Time Progressive Learning: Accumulate Knowledge from Control with Neural-Network-Based Selective Memory [2.8638167607890836]
リアルタイム・プログレッシブ・ラーニング(RTPL)と呼ばれる放射基底関数ニューラルネットワークに基づく学習制御方式を提案する。 RTPLは安定性と閉ループ性能を保証したシステムの未知のダイナミクスを学習する。
論文参考訳（メタデータ） (2023-08-08T12:39:57Z)
Deep Active Learning with Structured Neural Depth Search [18.180995603975422]
Active-iNASは、複数のモデルを訓練し、各アクティブラーニングサイクルの後に、その後のサンプルをクエリする最適な一般化性能でモデルを選択する。本稿では,SVI(Structured Variational Inference)あるいはSNDS(Structured Neural Deep Search)と呼ばれる手法を用いた新しいアクティブ戦略を提案する。同時に、理論上は、平均場推定に基づく現在のVIベースの手法が性能を低下させる可能性があることを実証している。
論文参考訳（メタデータ） (2023-06-05T12:00:12Z)
Properties and Potential Applications of Random Functional-Linked Types of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。本稿では周波数領域の観点からRFLNNの特性について考察する。本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文参考訳（メタデータ） (2023-04-03T13:25:22Z)
CoopInit: Initializing Generative Adversarial Networks via Cooperative Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。本稿では,画像生成における提案手法の有効性を示す。
論文参考訳（メタデータ） (2023-03-21T07:49:32Z)
Efficient Real Time Recurrent Learning through combined activity and parameter sparsity [0.5076419064097732]
時間によるバックプロパゲーション(BPTT)は、リカレントニューラルネットワーク(RNN)のトレーニングのための標準アルゴリズムである BPTTはオンライン学習には不適であり、低リソースのリアルタイムシステムの実装に挑戦している。実時間再帰学習(RTRL)の計算コストを削減できることを示す。
論文参考訳（メタデータ） (2023-03-10T01:09:04Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
ETLP: Event-based Three-factor Local Plasticity for online learning with neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文参考訳（メタデータ） (2023-01-19T19:45:42Z)
What deep reinforcement learning tells us about human motor learning and vice-versa [24.442174952832108]
本稿では,近年の深部RL法が神経科学,エラーベース学習において支配的な運動学習の枠組みとどのように一致するかを示す。我々は、モデルに基づく決定論的ポリシー勾配(MB-DPG)という新しいディープRLアルゴリズムを導入する。 MB-DPGは、観察された行動の結果に明示的に依存することで、エラーベースの学習からインスピレーションを得ている。
論文参考訳（メタデータ） (2022-08-23T11:56:49Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
A Heuristically Assisted Deep Reinforcement Learning Approach for Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文参考訳（メタデータ） (2021-05-14T10:04:17Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。目的はオンラインで発見されるため、時間とともに変化に適応することができる。 Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文参考訳（メタデータ） (2020-07-16T16:17:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。