論文の概要: Solving Continuous Control with Episodic Memory
- arxiv url: http://arxiv.org/abs/2106.08832v1
- Date: Wed, 16 Jun 2021 14:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 23:20:00.270243
- Title: Solving Continuous Control with Episodic Memory
- Title(参考訳): エピソディックメモリによる連続制御の解法
- Authors: Igor Kuznetsov, Andrey Filchenkov
- Abstract要約: エピソード記憶により、強化学習アルゴリズムは過去の有望な体験を記憶し、活用してエージェントのパフォーマンスを向上させることができる。
本研究の目的は, エピソード記憶を連続制御におけるエージェントの性能向上に有効か, という問いに答えることである。
- 参考スコア(独自算出の注目度): 1.9493449206135294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Episodic memory lets reinforcement learning algorithms remember and exploit
promising experience from the past to improve agent performance. Previous works
on memory mechanisms show benefits of using episodic-based data structures for
discrete action problems in terms of sample-efficiency. The application of
episodic memory for continuous control with a large action space is not
trivial. Our study aims to answer the question: can episodic memory be used to
improve agent's performance in continuous control? Our proposed algorithm
combines episodic memory with Actor-Critic architecture by modifying critic's
objective. We further improve performance by introducing episodic-based replay
buffer prioritization. We evaluate our algorithm on OpenAI gym domains and show
greater sample-efficiency compared with the state-of-the art model-free
off-policy algorithms.
- Abstract(参考訳): エピソード記憶により、強化学習アルゴリズムは過去の有望な体験を記憶し、活用してエージェントのパフォーマンスを向上させることができる。
メモリ機構に関するこれまでの研究は、サンプル効率の観点から離散的な動作問題にエピソードに基づくデータ構造を用いる利点を示している。
大規模なアクション空間を持つ連続制御に対するエピソードメモリの応用は自明ではない。
本研究は, 連続制御におけるエージェントの性能向上に, エピソード記憶は有効か?
提案アルゴリズムは, エピソードメモリとアクター・クライブ・アーキテクチャを組み合わせることで, 批評家の目的を変更する。
我々は,エピソディックベースリプレイバッファの優先順位付けを導入することにより,さらに性能を向上させる。
筆者らは,OpenAI体育館でのアルゴリズムの評価を行い,最先端の非政治型アルゴリズムと比較した。
関連論文リスト
- Adversarially Diversified Rehearsal Memory (ADRM): Mitigating Memory Overfitting Challenge in Continual Learning [0.0]
継続的な学習は、それまでの知識を忘れずに、静止しないデータ分布を学習することに焦点を当てる。
リハーサルベースのアプローチは、破滅的な忘れに対処するために一般的に使用される。
本稿では、メモリ過度に適合する課題に対処するために、Adversarially Diversified Rehearsal Memoryを導入する。
論文 参考訳(メタデータ) (2024-05-20T06:56:43Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Sequential memory improves sample and memory efficiency in Episodic Control [0.0]
最先端の強化学習アルゴリズムは、パフォーマンスを達成するために必要なエピソードの数が多いため、サンプル非効率である。
哺乳類の海馬にインスパイアされたERLアルゴリズムは、通常、拡張メモリシステムを使用して過去の出来事から学習をブートストラップし、このサンプル非効率問題を克服する。
ここでは、エピソードサンプリングの順序から得られる取得メモリ内容のバイアスを含めることで、エピソード制御アルゴリズムのサンプリングとメモリ効率が向上することを示す。
論文 参考訳(メタデータ) (2021-12-29T18:42:15Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Memory-Based Semantic Parsing [79.48882899104997]
文脈依存型セマンティック解析のためのメモリベースモデルを提案する。
逐次的ユーザ発話の累積的意味を維持することにより,メモリ管理を行うコンテキストメモリコントローラを学習する。
論文 参考訳(メタデータ) (2021-09-07T16:15:13Z) - Generalizable Episodic Memory for Deep Reinforcement Learning [22.375796383623566]
本稿では,エピソジックメモリの状態動作値を汎用的に整理する汎用的エピソジックメモリ(gem)を提案する。
GEMは暗記軌道の暗黙的な計画をサポートする。
実験により,MuJoCo連続制御タスクにおける既存のトラジェクトリベース手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-11T05:31:21Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。