論文の概要: Augmenting Replay in World Models for Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.16650v2
- Date: Tue, 5 Mar 2024 00:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:38:15.000824
- Title: Augmenting Replay in World Models for Continual Reinforcement Learning
- Title(参考訳): 連続強化学習のための世界モデルにおけるリプレイ強化
- Authors: Luke Yang, Levin Kuhlmann, Gideon Kowadlo
- Abstract要約: 連続RLは、エージェントが一連のタスクに露呈する難しい問題である。
WMAR, World Models with Augmented Replay, a model-based RL algorithm with a world model and memory efficient replay buffer。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual RL is a challenging problem where the agent is exposed to a
sequence of tasks; it should learn new tasks without forgetting old ones, and
learning the new task should improve performance on previous and future tasks.
The most common approaches use model-free RL algorithms as a base, and replay
buffers have been used to overcome catastrophic forgetting. However, the
buffers are often very large making scalability difficult. Also, the concept of
replay comes from biological inspiration, where evidence suggests that replay
is applied to a world model, which implies model-based RL -- and model-based RL
should have benefits for continual RL, where it is possible to exploit
knowledge independent of the policy. We present WMAR, World Models with
Augmented Replay, a model-based RL algorithm with a world model and memory
efficient distribution matching replay buffer. It is based on the well-known
DreamerV3 algorithm, which has a simple FIFO buffer and was not tested in a
continual RL setting. We evaluated WMAR vs WMAR (FIFO only) on tasks with and
without shared structure from OpenAI ProcGen and Atari respectively, and
without a task oracle. We found that WMAR has favourable properties on
continual RL with significantly reduced computational overhead compared to WMAR
(FIFO only). WMAR had small benefits over DreamerV3 on tasks with shared
structure and substantially better forgetting characteristics on tasks without
shared structure; but at the cost of lower plasticity seen in a lower maximum
on new tasks. The results suggest that model-based RL using a world model with
a memory efficient replay buffer can be an effective and practical approach to
continual RL, justifying future work.
- Abstract(参考訳): 連続的なRLは、エージェントが一連のタスクにさらされる難しい問題であり、古いタスクを忘れずに新しいタスクを学習し、新しいタスクを学ぶことは、以前のタスクと将来のタスクのパフォーマンスを改善する。
最も一般的なアプローチはモデルフリーのrlアルゴリズムをベースとし、再生バッファは壊滅的な忘れを克服するために使われてきた。
しかし、バッファは非常に大きく、スケーラビリティを難しくすることが多い。
また、リプレイの概念は生物学的なインスピレーションから来ており、リプレイはモデルベースのrlを含む世界モデルに適用されていることを示唆する証拠がある。
本稿では,世界モデルとメモリ効率の良い分散マッチング・リプレイバッファを備えたモデルベースのrlアルゴリズムであるarded replayを用いたwmar,world modelを提案する。
これはよく知られたdreamerv3アルゴリズムに基づいており、単純なfifoバッファを持ち、連続rl設定ではテストされなかった。
我々は,OpenAI ProcGen と Atari の共通構造を持つタスクに対して,タスク・オラクルなしで WMAR 対 WMAR (FIFO のみ) を評価した。
その結果、wmarは連続rl上で好適な特性を持ち、計算オーバーヘッドをwmar(fifoのみ)と比較して大幅に削減できることがわかった。
WMARは、共有構造を持たないタスクにおけるDreamerV3よりも小さな利点があり、共有構造を持たないタスクの特徴をかなりよく忘れることができた。
その結果、メモリ効率の良いリプレイバッファを持つ世界モデルを用いたモデルベースrlは、継続的なrlへの効果的かつ実用的なアプローチとなり、将来の作業の正当化が期待できる。
関連論文リスト
- Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Reflect-RL: Two-Player Online RL Fine-Tuning for LMs [38.5495318990769]
オンライン強化学習(RL)と教師付き微調整(SFT)を用いた微調整言語モデル(LM)システムであるReflect-RLを提案する。
GPT-2 XL 1.56BはReflect-RLで微調整され、Mistral 7Bのようなより大きなオープンソースLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-20T01:04:21Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Does Zero-Shot Reinforcement Learning Exist? [11.741744003560095]
ゼロショットRLエージェント(ゼロショットRL agent)は、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。
これは報酬中心のRLパラダイムから"制御可能な"エージェントへのシフトを表している。
近似ゼロショットRLの戦略は、後続特徴(SF)や前方表現(FB)を用いて提案されている。
論文 参考訳(メタデータ) (2022-09-29T16:54:05Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Model-Free Generative Replay for Lifelong Reinforcement Learning:
Application to Starcraft-2 [5.239932780277599]
生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。
本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
論文 参考訳(メタデータ) (2022-08-09T22:00:28Z) - Recurrent Model-Free RL is a Strong Baseline for Many POMDPs [73.39666827525782]
メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2021-10-11T07:09:14Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。