論文の概要: A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations
- arxiv url: http://arxiv.org/abs/2307.02947v2
- Date: Tue, 8 Aug 2023 10:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 16:36:34.443518
- Title: A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations
- Title(参考訳): 実数値観測からの強化学習のためのニューロモルフィックアーキテクチャ
- Authors: Sergio F. Chevtchenko, Yeshwanth Bethi, Teresa B. Ludermir, Saeed
Afshar
- Abstract要約: 強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.34410212782758043
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) provides a powerful framework for decision-making
in complex environments. However, implementing RL in hardware-efficient and
bio-inspired ways remains a challenge. This paper presents a novel Spiking
Neural Network (SNN) architecture for solving RL problems with real-valued
observations. The proposed model incorporates multi-layered event-based
clustering, with the addition of Temporal Difference (TD)-error modulation and
eligibility traces, building upon prior work. An ablation study confirms the
significant impact of these components on the proposed model's performance. A
tabular actor-critic algorithm with eligibility traces and a state-of-the-art
Proximal Policy Optimization (PPO) algorithm are used as benchmarks. Our
network consistently outperforms the tabular approach and successfully
discovers stable control policies on classic RL environments: mountain car,
cart-pole, and acrobot. The proposed model offers an appealing trade-off in
terms of computational and hardware implementation requirements. The model does
not require an external memory buffer nor a global error gradient computation,
and synaptic updates occur online, driven by local learning rules and a
broadcasted TD-error signal. Thus, this work contributes to the development of
more hardware-efficient RL solutions.
- Abstract(参考訳): 強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
しかし、ハードウェア効率とバイオインスパイアされた方法でRLを実装することは依然として課題である。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
提案モデルは,td(temporal difference)-error modulation)とeligibility tracesを追加して,事前作業に基づいて多層イベントベースクラスタリングを組み込んだものである。
アブレーション研究は、これらの成分がモデルの性能に与える影響を裏付けるものである。
適応性トレースを持つ表型アクター批判アルゴリズムと最先端のPPOアルゴリズムをベンチマークとして使用する。
当社のネットワークは,従来型のRL環境(マウンテンカー,カートポール,アクロボット)における安定的な制御ポリシの発見に成功した。
提案モデルは,計算およびハードウェア実装要件の観点から,魅力的なトレードオフを提供する。
このモデルは外部メモリバッファやグローバルエラー勾配計算を必要とせず、ローカル学習ルールと放送されたtd-error信号によってオンラインにシナプス更新が行われる。
したがって、この研究はよりハードウェア効率の良いRLソリューションの開発に寄与する。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Offline Reinforcement Learning with Causal Structured World Models [9.376353239574243]
因果世界モデルは、オフラインRLにおいて、通常の世界モデルよりも優れていることを示す。
本稿では, CaUsal Structure (FOCUS) を用いたoFfline mOdel型強化学習法を提案する。
論文 参考訳(メタデータ) (2022-06-03T09:53:57Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。