Fugu-MT 論文翻訳(概要): Real-Time Recurrent Reinforcement Learning

論文の概要: Real-Time Recurrent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2311.04830v2
Date: Thu, 28 Mar 2024 10:30:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 21:33:29.776754
Title: Real-Time Recurrent Reinforcement Learning
Title（参考訳）: 実時間繰り返し強化学習
Authors: Julian Lemmel, Radu Grosu,
Abstract要約: RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティカルなアルゴリズム,(2)メタRLネットワークをトレーニングするために時間差分学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムであるRFLO学習の3つの部分から構成される。
参考スコア（独自算出の注目度）: 7.737685867200335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper we propose real-time recurrent reinforcement learning (RTRRL), a biologically plausible approach to solving discrete and continuous control tasks in partially-observable markov decision processes (POMDPs). RTRRL consists of three parts: (1) a Meta-RL RNN architecture, implementing on its own an actor-critic algorithm; (2) an outer reinforcement learning algorithm, exploiting temporal difference learning and dutch eligibility traces to train the Meta-RL network; and (3) random-feedback local-online (RFLO) learning, an online automatic differentiation algorithm for computing the gradients with respect to parameters of the network.Our experimental results show that by replacing the optimization algorithm in RTRRL with the biologically implausible back propagation through time (BPTT), or real-time recurrent learning (RTRL), one does not improve returns, while matching the computational complexity for BPTT, and even increasing complexity for RTRL. RTRRL thus serves as a model of learning in biological neural networks, mimicking reward pathways in the basal ganglia.
Abstract（参考訳）: 本稿では,部分観測可能なマルコフ決定プロセス(POMDP)における離散的かつ連続的な制御課題を解決するための生物学的に妥当なアプローチであるリアルタイムリカレント強化学習(RTRRL)を提案する。 RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティック・アルゴリズム,(2)メタRLネットワークのトレーニングに時間差学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ランダムフィードバックローカルオンライン学習(RFLO)学習,ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズム,の3つの部分から構成される。 RTRRLは、基底神経節の報酬経路を模倣し、生物学的ニューラルネットワークにおける学習のモデルとして機能する。

関連論文リスト

Binarized Neural Networks Converge Toward Algorithmic Simplicity: Empirical Support for the Learning-as-Compression Hypothesis [36.24954635616374]
本稿では,二元化ニューラルネットワーク(BNN)を第1のプロキシとして用いて,アルゴリズム情報理論へのシフトを提案する。ブロック分解法 (BDM) を適用し, エントロピーよりもトレーニング中の構造変化をより綿密に追跡した。これらの結果は、学習が構造化正規性の進行的内部化に対応するアルゴリズム圧縮の過程としてのトレーニングの観点を支持する。
論文参考訳（メタデータ） (2025-05-27T02:51:36Z)
Dendritic Localized Learning: Toward Biologically Plausible Algorithm [41.362676232853765]
バックプロパゲーションはニューラルネットワークのトレーニングの基礎であり、ディープラーニングの成功の重要な要因である。バックプロパゲーションは、重み対称性、大域的エラー信号への依存、訓練の二重相の性質の3つの主要な制限により、難題となっている。本稿では,これらの課題を克服するための新しい学習アルゴリズムであるDendritic Localized Learning (DLL)を提案する。
論文参考訳（メタデータ） (2025-01-17T06:35:20Z)
A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文参考訳（メタデータ） (2024-09-18T14:57:13Z)
Real-Time Recurrent Learning using Trace Units in Reinforcement Learning [27.250024431890477]
リカレントニューラルネットワーク(RNN)は、部分的に観測可能な環境で表現を学ぶために使用される。オンラインで学び、環境と継続的に交流するエージェントにとって、リアルタイム反復学習(RTRL)でRNNを訓練することが望ましい。これらの洞察に基づいて、オンラインRLでRNNをトレーニングするための軽量で効果的なアプローチを提供します。
論文参考訳（メタデータ） (2024-09-02T20:08:23Z)
Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文参考訳（メタデータ） (2024-05-24T09:33:47Z)
Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning [17.714908233024847]
強化学習(RL)エージェントは、タスク環境とのインタラクションを通じてニューラルネットワークパラメータを更新することで、新しいタスクの解決を学ぶ。最近の研究は、一部のRLエージェントが、特定の事前訓練手順の後に、パラメーター更新なしで見知らぬ新しいタスクを解くことができることを示した。
論文参考訳（メタデータ） (2024-05-22T17:38:16Z)
Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-02T01:36:13Z)
Real-Time Progressive Learning: Accumulate Knowledge from Control with Neural-Network-Based Selective Memory [2.8638167607890836]
リアルタイム・プログレッシブ・ラーニング(RTPL)と呼ばれる放射基底関数ニューラルネットワークに基づく学習制御方式を提案する。 RTPLは安定性と閉ループ性能を保証したシステムの未知のダイナミクスを学習する。
論文参考訳（メタデータ） (2023-08-08T12:39:57Z)
Deep Active Learning with Structured Neural Depth Search [18.180995603975422]
Active-iNASは、複数のモデルを訓練し、各アクティブラーニングサイクルの後に、その後のサンプルをクエリする最適な一般化性能でモデルを選択する。本稿では,SVI(Structured Variational Inference)あるいはSNDS(Structured Neural Deep Search)と呼ばれる手法を用いた新しいアクティブ戦略を提案する。同時に、理論上は、平均場推定に基づく現在のVIベースの手法が性能を低下させる可能性があることを実証している。
論文参考訳（メタデータ） (2023-06-05T12:00:12Z)
Properties and Potential Applications of Random Functional-Linked Types of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。本稿では周波数領域の観点からRFLNNの特性について考察する。本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文参考訳（メタデータ） (2023-04-03T13:25:22Z)
CoopInit: Initializing Generative Adversarial Networks via Cooperative Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。本稿では,画像生成における提案手法の有効性を示す。
論文参考訳（メタデータ） (2023-03-21T07:49:32Z)
Efficient Real Time Recurrent Learning through combined activity and parameter sparsity [0.5076419064097732]
時間によるバックプロパゲーション(BPTT)は、リカレントニューラルネットワーク(RNN)のトレーニングのための標準アルゴリズムである BPTTはオンライン学習には不適であり、低リソースのリアルタイムシステムの実装に挑戦している。実時間再帰学習(RTRL)の計算コストを削減できることを示す。
論文参考訳（メタデータ） (2023-03-10T01:09:04Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
ETLP: Event-based Three-factor Local Plasticity for online learning with neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文参考訳（メタデータ） (2023-01-19T19:45:42Z)
What deep reinforcement learning tells us about human motor learning and vice-versa [24.442174952832108]
本稿では,近年の深部RL法が神経科学,エラーベース学習において支配的な運動学習の枠組みとどのように一致するかを示す。我々は、モデルに基づく決定論的ポリシー勾配(MB-DPG)という新しいディープRLアルゴリズムを導入する。 MB-DPGは、観察された行動の結果に明示的に依存することで、エラーベースの学習からインスピレーションを得ている。
論文参考訳（メタデータ） (2022-08-23T11:56:49Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
A Heuristically Assisted Deep Reinforcement Learning Approach for Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文参考訳（メタデータ） (2021-05-14T10:04:17Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。目的はオンラインで発見されるため、時間とともに変化に適応することができる。 Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文参考訳（メタデータ） (2020-07-16T16:17:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。