論文の概要: Learning, Fast and Slow: A Goal-Directed Memory-Based Approach for
Dynamic Environments
- arxiv url: http://arxiv.org/abs/2301.13758v1
- Date: Tue, 31 Jan 2023 16:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 15:43:19.932133
- Title: Learning, Fast and Slow: A Goal-Directed Memory-Based Approach for
Dynamic Environments
- Title(参考訳): 学習、高速、遅い:動的環境のための目標指向メモリベースアプローチ
- Authors: Tan Chong Min John, Mehul Motani
- Abstract要約: 並列メモリ検索システムを用いたモデルベース計画を行う。
状態の値を学ぶ代わりに,目標指向探索を用いてエージェントの行動を導く。
提案手法は,動的に変化するグリッド世界において,100回にわたって92%の解解率を有する。
- 参考スコア(独自算出の注目度): 29.519376857728325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model-based next state prediction and state value prediction are slow to
converge. To address these challenges, we do the following: i) Instead of a
neural network, we do model-based planning using a parallel memory retrieval
system (which we term the slow mechanism); ii) Instead of learning state
values, we guide the agent's actions using goal-directed exploration, by using
a neural network to choose the next action given the current state and the goal
state (which we term the fast mechanism). The goal-directed exploration is
trained online using hippocampal replay of visited states and future imagined
states every single time step, leading to fast and efficient training.
Empirical studies show that our proposed method has a 92% solve rate across 100
episodes in a dynamically changing grid world, significantly outperforming
state-of-the-art actor critic mechanisms such as PPO (54%), TRPO (50%) and A2C
(24%). Ablation studies demonstrate that both mechanisms are crucial. We posit
that the future of Reinforcement Learning (RL) will be to model goals and
sub-goals for various tasks, and plan it out in a goal-directed memory-based
approach.
- Abstract(参考訳): モデルベースの次の状態予測と状態値予測は収束が遅い。
これらの課題に対処するために、私たちは以下のことをします。
一 ニューラルネットワークの代わりに、並列メモリ検索システム(スロー機構と呼ぶ。)を用いて、モデルベースの計画を行う。
二 状態値の学習に代えて、ニューラルネットワークを用いて現在の状態及び目標状態(高速機構という。)に基づいて次の動作を選択することにより、目標指向探索を用いてエージェントの動作を誘導する。
目標指向の探索は、訪問状態と将来の想像状態の海馬リプレイを使用してオンラインでトレーニングされ、迅速かつ効率的なトレーニングに繋がる。
実験により,提案手法は動的に変化するグリッド世界において,100エピソードにわたる92%の解答率を示し,PPO (54%), TRPO (50%), A2C (24%) などの最先端のアクター批判機構を著しく上回った。
アブレーションの研究は両方のメカニズムが重要であることを示している。
強化学習(RL)の未来は、様々なタスクの目標とサブゴールをモデル化し、目標指向のメモリベースのアプローチで計画することだと仮定する。
関連論文リスト
- Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games [6.532258098619471]
部分的に観察可能なマルチエージェント追従ゲーム(PEG)における回避目標の動作計画タスクに焦点をあてる。
これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、様々な応用に関係している。
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Memory-and-Anticipation Transformer for Online Action Understanding [52.24561192781971]
本稿では,過去,現在,未来を含む時間構造全体をモデル化する,メモリ予測に基づく新しいパラダイムを提案する。
本稿では,メモリ・アンド・アンティフィケーション・トランスフォーマ(MAT)を提案する。
論文 参考訳(メタデータ) (2023-08-15T17:34:54Z) - Knowing the Past to Predict the Future: Reinforcement Virtual Learning [29.47688292868217]
近年,強化学習(RL)に基づく制御システムが注目されている。
本稿では,RLモデルが仮想空間内で自分自身で進化できるような,コスト効率のよいフレームワークを提案する。
提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。
論文 参考訳(メタデータ) (2022-11-02T16:48:14Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Representation Memorization for Fast Learning New Knowledge without
Forgetting [36.55736909586313]
新しい知識を素早く学習する能力は、人間レベルの知性への大きな一歩だ。
新しいクラスやデータ配布を迅速かつ漸進的に学ぶ必要があるシナリオを考えます。
本稿では,2つの課題に対処するため,メモリベースのヘビアン適応を提案する。
論文 参考訳(メタデータ) (2021-08-28T07:54:53Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Generalising via Meta-Examples for Continual Learning in the Wild [24.09600678738403]
我々は「野生で学習する」ニューラルネットワークを扱うための新しい戦略を開発する
MEML - Meta-Example Meta-Learning - 破滅的な忘れを同時に緩和する新しいモジュール。
様々な拡張タスクを作成し、最も難しいタスクを最適化する手法を採用して拡張する。
論文 参考訳(メタデータ) (2021-01-28T15:51:54Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Neuromodulated Neural Architectures with Local Error Signals for
Memory-Constrained Online Continual Learning [4.2903672492917755]
我々は,局所学習とニューロ変調を取り入れた,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。
一つの課題と連続的な学習環境の両方にアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-16T07:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。