論文の概要: Model-Based Episodic Memory Induces Dynamic Hybrid Controls
- arxiv url: http://arxiv.org/abs/2111.02104v1
- Date: Wed, 3 Nov 2021 09:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 20:07:17.190187
- Title: Model-Based Episodic Memory Induces Dynamic Hybrid Controls
- Title(参考訳): モデルベースエピソディックメモリは動的ハイブリッド制御を誘導する
- Authors: Hung Le, Thommen Karimpanal George, Majid Abdolshah, Truyen Tran,
Svetha Venkates
- Abstract要約: エピソード制御は、エピソード記憶から過去の経験を思い出し、強化学習におけるサンプル効率を実現する。
本稿では,現在行われているエピソード制御の限界に対処するトラジェクトリのモデルベースエピソードメモリを提案する。
我々のメモリは軌道値を推定し、エージェントを良いポリシーへと導く。
- 参考スコア(独自算出の注目度): 33.988991325924296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Episodic control enables sample efficiency in reinforcement learning by
recalling past experiences from an episodic memory. We propose a new
model-based episodic memory of trajectories addressing current limitations of
episodic control. Our memory estimates trajectory values, guiding the agent
towards good policies. Built upon the memory, we construct a complementary
learning model via a dynamic hybrid control unifying model-based, episodic and
habitual learning into a single architecture. Experiments demonstrate that our
model allows significantly faster and better learning than other strong
reinforcement learning agents across a variety of environments including
stochastic and non-Markovian settings.
- Abstract(参考訳): エピソード制御は、エピソード記憶から過去の経験を思い出し、強化学習におけるサンプル効率を実現する。
本稿では,最近のエピソディック制御の限界に対処し,トラジェクタのモデルベースエピソディックメモリを提案する。
我々のメモリは軌道値を推定し、エージェントを良いポリシーへと導く。
メモリ上に構築し,モデルベース,エピソディクス,習慣学習を単一アーキテクチャに統合した動的ハイブリッド制御による補完学習モデルを構築する。
実験により,確率的および非マルコフ的設定を含む様々な環境において,強強化学習エージェントよりも有意に高速で優れた学習が可能となった。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Leveraging Jumpy Models for Planning and Fast Learning in Robotic
Domains [25.245208731491346]
本研究では,ラベルのない経験からマルチステップダイナミクス予測モデル(ジャンピーモデル)を学習する問題について検討する。
我々は,以前に収集した経験から,スキル埋め込みスペースのオフライン化とともに,跳躍モデルを学習することを提案する。
我々は、RGBスタック環境で一連の実験を行い、学習したスキルと関連するモデルによる計画が、新しいタスクにゼロショットの一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2023-02-24T13:26:03Z) - Online Dynamics Learning for Predictive Control with an Application to
Aerial Robots [3.673994921516517]
予測モデルは学習し、モデルベースのコントローラに適用することができるが、これらのモデルはしばしばオフラインで学習される。
このオフライン設定では、トレーニングデータをまず収集し、精巧なトレーニング手順により予測モデルを学ぶ。
本稿では,デプロイ中の動的モデルの精度を継続的に向上するオンライン動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-19T15:51:25Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - CLOUD: Contrastive Learning of Unsupervised Dynamics [19.091886595825947]
コントラスト推定により、完全に教師のない方法で前方・逆ダイナミクスを学習することを提案する。
目標指向計画や観察からの模倣など,さまざまなタスクにまたがるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-23T15:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。