論文の概要: Curious Replay for Model-based Adaptation
- arxiv url: http://arxiv.org/abs/2306.15934v1
- Date: Wed, 28 Jun 2023 05:34:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 15:35:22.684390
- Title: Curious Replay for Model-based Adaptation
- Title(参考訳): モデルベース適応のための奇抜なリプレイ
- Authors: Isaac Kauvar, Chris Doyle, Linqi Zhou, Nick Haber
- Abstract要約: モデルベースのエージェントに合わせた、優先順位付けされた体験リプレイの形式であるCurious Replayを紹介します。
Curious Replay を用いたエージェントは、動物行動にインスパイアされた探索パラダイムのパフォーマンスを向上させる。
DreamerV3 with Curious ReplayはCrafterベンチマークで最先端のパフォーマンスを上回っている。
- 参考スコア(独自算出の注目度): 3.9981390090442686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents must be able to adapt quickly as an environment changes. We find that
existing model-based reinforcement learning agents are unable to do this well,
in part because of how they use past experiences to train their world model.
Here, we present Curious Replay -- a form of prioritized experience replay
tailored to model-based agents through use of a curiosity-based priority
signal. Agents using Curious Replay exhibit improved performance in an
exploration paradigm inspired by animal behavior and on the Crafter benchmark.
DreamerV3 with Curious Replay surpasses state-of-the-art performance on
Crafter, achieving a mean score of 19.4 that substantially improves on the
previous high score of 14.5 by DreamerV3 with uniform replay, while also
maintaining similar performance on the Deepmind Control Suite. Code for Curious
Replay is available at https://github.com/AutonomousAgentsLab/curiousreplay
- Abstract(参考訳): エージェントは環境の変化に応じて迅速に適応できなければならない。
既存のモデルベース強化学習エージェントは、過去の経験を世界モデルのトレーニングに用いているため、これをうまく実行できないことが分かっています。
ここでは、好奇心に基づく優先信号を用いて、モデルベースのエージェントにカスタマイズされた優先的な体験リプレイの形式であるCurious Replayを紹介する。
Curious Replayを使用するエージェントは、動物行動やCrafterベンチマークにインスパイアされた探索パラダイムのパフォーマンス向上を示す。
Curious Replay の DreamerV3 は Crafter の最先端のパフォーマンスを上回り、DreamerV3 の以前の高得点 14.5 よりも大幅に向上した 19.4 のスコアを達成し、Deepmind Control Suite でも同様のパフォーマンスを維持した。
Curious Replayのコードはhttps://github.com/AutonomousAgentsLab/curiousreplayで入手できる。
関連論文リスト
- Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文 参考訳(メタデータ) (2024-10-23T17:59:52Z) - Brain-Like Replay Naturally Emerges in Reinforcement Learning Agents [3.9276584971242303]
リプレイを生成するモジュール型強化学習モデルを開発した。
この方法で生成されたリプレイがタスクの完了に役立つことを証明します。
我々の設計は複雑な仮定を回避し、タスク最適化パラダイム内で自然にリプレイを可能にする。
論文 参考訳(メタデータ) (2024-02-02T14:55:51Z) - Adiabatic replay for continual learning [138.7878582237908]
生成的リプレイは、すでに知られていることを再学習するだけで、より多くの時間を費やします。
我々は、アディバティック・リプレイ(AR)と呼ぶリプレイベースのCL戦略を提案する。
VAEを用いた最先端の深層再生よりもARの方が優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2023-03-23T10:18:06Z) - Model-Free Generative Replay for Lifelong Reinforcement Learning:
Application to Starcraft-2 [5.239932780277599]
生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。
本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
論文 参考訳(メタデータ) (2022-08-09T22:00:28Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Lucid Dreaming for Experience Replay: Refreshing Past States with the
Current Policy [48.8675653453076]
我々は、エージェントの現在のポリシーを活用することで、リプレイ体験をリフレッシュできるフレームワークであるLucid Dreaming for Experience Replay(LiDER)を紹介した。
LiDERは6つのAtari 2600ゲームにおいて、ベースラインよりも一貫してパフォーマンスを改善している。
論文 参考訳(メタデータ) (2020-09-29T02:54:11Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Double Prioritized State Recycled Experience Replay [3.42658286826597]
本稿では,DPSR (Double-prioritized State-Recycled) 体験再生法を提案する。
我々は、この手法をDeep Q-Networks (DQN) で使用し、最先端の結果を得た。
論文 参考訳(メタデータ) (2020-07-08T08:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。