論文の概要: HTMRL: Biologically Plausible Reinforcement Learning with Hierarchical
Temporal Memory
- arxiv url: http://arxiv.org/abs/2009.08880v1
- Date: Fri, 18 Sep 2020 15:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:06:08.655021
- Title: HTMRL: Biologically Plausible Reinforcement Learning with Hierarchical
Temporal Memory
- Title(参考訳): HTMRL:階層的時間記憶を用いた生物学的に可塑性強化学習
- Authors: Jakob Struye, Kevin Mets, Steven Latr\'e
- Abstract要約: 本稿では,HTMに基づく強化学習アルゴリズムHTMRLを提案する。
我々は,HTMRLが多くの状態や行動にスケールできることを経験的,統計的に示し,パターンの変化に適応するHTMの能力がRLにまで拡張できることを実証した。
HTMRLは新しいRLアプローチの最初のイテレーションであり、Meta-RLの有能なアルゴリズムに拡張される可能性がある。
- 参考スコア(独自算出の注目度): 1.138723572165938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building Reinforcement Learning (RL) algorithms which are able to adapt to
continuously evolving tasks is an open research challenge. One technology that
is known to inherently handle such non-stationary input patterns well is
Hierarchical Temporal Memory (HTM), a general and biologically plausible
computational model for the human neocortex. As the RL paradigm is inspired by
human learning, HTM is a natural framework for an RL algorithm supporting
non-stationary environments. In this paper, we present HTMRL, the first
strictly HTM-based RL algorithm. We empirically and statistically show that
HTMRL scales to many states and actions, and demonstrate that HTM's ability for
adapting to changing patterns extends to RL. Specifically, HTMRL performs well
on a 10-armed bandit after 750 steps, but only needs a third of that to adapt
to the bandit suddenly shuffling its arms. HTMRL is the first iteration of a
novel RL approach, with the potential of extending to a capable algorithm for
Meta-RL.
- Abstract(参考訳): 継続的に進化するタスクに適応できる強化学習(RL)アルゴリズムを構築することは、オープンな研究課題である。
このような非定常入力パターンをうまく扱うことが知られている技術の一つは階層的時空間記憶(htm)であり、ヒト新皮質の汎用的かつ生物学的に妥当な計算モデルである。
RLパラダイムは人間の学習にインスパイアされているため、HTMは非定常環境をサポートするRLアルゴリズムの自然なフレームワークである。
本稿では,HTMベースのRLアルゴリズムであるHTMRLを提案する。
我々は,HTMRLが多くの状態や行動にスケールできることを経験的,統計的に示し,パターンの変化に適応するHTMの能力がRLにまで拡張できることを実証した。
具体的には、HTMRLは750歩の後に10本腕のバンディットでうまく機能するが、突然腕をシャッフルするためには3分の1しか必要としない。
HTMRLは新しいRLアプローチの最初のイテレーションであり、Meta-RLの有能なアルゴリズムに拡張される可能性がある。
関連論文リスト
- Understanding the Synergies between Quality-Diversity and Deep
Reinforcement Learning [4.788163807490196]
Generalized Actor-Critic QD-RLは、QD-RL設定におけるアクタークリティカルなディープRLメソッドのための統一的なモジュラーフレームワークである。
PGA-ME (SAC) と PGA-ME (DroQ) という2つの新しいアルゴリズムを導入し,近年のディープRLの進歩をQD-RL設定に適用した。
論文 参考訳(メタデータ) (2023-03-10T19:02:42Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文 参考訳(メタデータ) (2022-10-16T10:28:59Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - Heuristic-Guided Reinforcement Learning [31.056460162389783]
Tabula rasa RLアルゴリズムは、意思決定タスクの地平線に合わせてスケールする環境相互作用や計算を必要とする。
我々のフレームワークは、有限の相互作用予算の下でRLのバイアスと分散を制御するための地平線に基づく正規化と見なすことができる。
特に,従来の知識を超越してRLエージェントを外挿できる「改良可能な」新しい概念を導入する。
論文 参考訳(メタデータ) (2021-06-05T00:04:09Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Maximum Entropy RL (Provably) Solves Some Robust RL Problems [94.80212602202518]
我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。
以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T18:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。