論文の概要: Model-Free Generative Replay for Lifelong Reinforcement Learning:
Application to Starcraft-2
- arxiv url: http://arxiv.org/abs/2208.05056v1
- Date: Tue, 9 Aug 2022 22:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:30:14.329515
- Title: Model-Free Generative Replay for Lifelong Reinforcement Learning:
Application to Starcraft-2
- Title(参考訳): 生涯強化学習のためのモデルフリー生成リプレイ:Starcraft-2への応用
- Authors: Zachary Daniels, Aswin Raghavan, Jesse Hostetler, Abrar Rahman,
Indranil Sur, Michael Piacentino, Ajay Divakaran
- Abstract要約: 生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。
本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
- 参考スコア(独自算出の注目度): 5.239932780277599
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One approach to meet the challenges of deep lifelong reinforcement learning
(LRL) is careful management of the agent's learning experiences, in order to
learn (without forgetting) and build internal meta-models (of the tasks,
environments, agents, and world). Generative replay (GR) is a
biologically-inspired replay mechanism that augments learning experiences with
self-labelled examples drawn from an internal generative model that is updated
over time. In this paper, we present a version of GR for LRL that satisfies two
desiderata: (a) Introspective density modelling of the latent representations
of policies learned using deep RL, and (b) Model-free end-to-end learning. In
this work, we study three deep learning architectures for model-free GR. We
evaluate our proposed algorithms on three different scenarios comprising tasks
from the StarCraft2 and Minigrid domains. We report several key findings
showing the impact of the design choices on quantitative metrics that include
transfer learning, generalization to unseen tasks, fast adaptation after task
change, performance comparable to a task expert, and minimizing catastrophic
forgetting. We observe that our GR prevents drift in the features-to-action
mapping from the latent vector space of a deep actor-critic agent. We also show
improvements in established lifelong learning metrics. We find that the
introduction of a small random replay buffer is needed to significantly
increase the stability of training, when used in conjunction with the replay
buffer and the generated replay buffer. Overall, we find that "hidden replay"
(a well-known architecture for class-incremental classification) is the most
promising approach that pushes the state-of-the-art in GR for LRL.
- Abstract(参考訳): 深層生涯強化学習(LRL)の課題を満たす1つのアプローチは、(忘れずに)学習し、内部メタモデル(タスク、環境、エージェント、世界)を構築するために、エージェントの学習経験を注意深く管理することである。
generative replay (gr) は生物学的にインスパイアされたリプレイメカニズムであり、時間とともに更新される内部生成モデルから引き出された自己ラベルの例で学習体験を増強する。
本稿では,2つのデシラタを満たすLRL用GRについて述べる。
(a)深部RLを用いて学習した政策の潜在表現の内観的密度モデリング
b)モデルフリーのエンドツーエンド学習。
本研究では,モデルフリーGRのための3つのディープラーニングアーキテクチャについて検討する。
提案手法はstarcraft2およびminigridドメインのタスクを含む3つの異なるシナリオで評価する。
本稿では,伝達学習,未知のタスクへの一般化,タスク変更後の迅速な適応,タスクエキスパートに匹敵するパフォーマンス,破滅的な忘れの最小化など,設計選択が定量的指標に与える影響について報告する。
我々は,深いアクター・クリティック・エージェントの潜在ベクトル空間からの特徴対作用写像の漂流を防止する。
また,確立した生涯学習指標の改善も示す。
我々は,リプレイバッファと生成したリプレイバッファを併用した場合,トレーニングの安定性を著しく向上させるために,ランダムリプレイバッファの導入が必要であることを見出した。
全体として、"隠れリプレイ"(クラスインクリメンタルな分類のためのよく知られたアーキテクチャ)が、LRLのGRの最先端を推し進める最も有望なアプローチであることがわかった。
関連論文リスト
- PCGRL+: Scaling, Control and Generalization in Reinforcement Learning Level Generators [2.334978724544296]
制御可能なデザイナーエージェントを訓練する手段として,PCGRL (Procedural Content Generation) が導入された。
PCGRLはゲームデザイナーにユニークな余裕を提供するが、RLエージェントを訓練する計算集約的なプロセスによって制約される。
我々はJaxにいくつかのPCGRL環境を実装し、GPU上で学習とシミュレーションのあらゆる側面が並列に行われるようにした。
論文 参考訳(メタデータ) (2024-08-22T16:30:24Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Augmenting Replay in World Models for Continual Reinforcement Learning [0.0]
連続RLは、エージェントが過去のタスクと将来のタスクの両方を改善しながら、以前のタスクを忘れずに新しいタスクを学ぶ必要がある。
最も一般的なアプローチは、モデルフリーのアルゴリズムとリプレイバッファを使って破滅的な忘れを軽減している。
WMAR(World Models with Augmented Replay)は,メモリ効率のよいリプレイバッファを持つモデルベースRLアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-30T00:48:26Z) - OER: Offline Experience Replay for Continual Offline Reinforcement Learning [25.985985377992034]
エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T08:16:44Z) - Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong
Learning in Task-Oriented Dialogue [80.05509768165135]
生成的再生法は、過去の知識と生成された擬似サンプルを統合するために広く用いられている。
既存の生成的再生法の多くは、モデルを制御するために単一のタスク固有のトークンのみを使用する。
本稿では,タスクの統計を取り入れて生成的再生を向上させるために,生涯学習のための新しい条件付きVAEを提案する。
論文 参考訳(メタデータ) (2022-10-14T13:12:14Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。