論文の概要: The Surprising Effectiveness of Latent World Models for Continual
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.15944v1
- Date: Tue, 29 Nov 2022 05:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:00:27.858654
- Title: The Surprising Effectiveness of Latent World Models for Continual
Reinforcement Learning
- Title(参考訳): 持続的強化学習における潜在世界モデルの驚くべき効果
- Authors: Samuel Kessler, Piotr Mi{\l}o\'s, Jack Parker-Holder, and Stephen J.
Roberts
- Abstract要約: 本研究では,モデルに基づく強化学習手法,特に世界モデルを用いた連続的強化学習について検討する。
世界モデルはタスクに依存しないソリューションを提供する。
我々は,世界モデルはシンプルで効果的な強化学習ベースラインであることを示した。
- 参考スコア(独自算出の注目度): 20.08975603984914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the use of model-based reinforcement learning methods, in
particular, world models for continual reinforcement learning. In continual
reinforcement learning, an agent is required to solve one task and then another
sequentially while retaining performance and preventing forgetting on past
tasks. World models offer a task-agnostic solution: they do not require
knowledge of task changes. World models are a straight-forward baseline for
continual reinforcement learning for three main reasons. Firstly, forgetting in
the world model is prevented by persisting existing experience replay buffers
across tasks, experience from previous tasks is replayed for learning the world
model. Secondly, they are sample efficient. Thirdly and finally, they offer a
task-agnostic exploration strategy through the uncertainty in the trajectories
generated by the world model. We show that world models are a simple and
effective continual reinforcement learning baseline. We study their
effectiveness on Minigrid and Minihack continual reinforcement learning
benchmarks and show that it outperforms state of the art task-agnostic
continual reinforcement learning methods.
- Abstract(参考訳): モデルベース強化学習手法,特に世界モデルを用いた連続強化学習について検討した。
連続的な強化学習では、エージェントは、性能を維持し、過去のタスクを忘れないようにしながら、あるタスクと別のタスクを順次解決する必要がある。
世界モデルはタスクに依存しないソリューションを提供する。
世界モデルは3つの主な理由から、継続的な強化学習のためのストレートフォワードベースラインである。
第一に、既存のタスク間のバッファを持続させることで、世界モデルを忘れないようにし、以前のタスクからの経験を世界モデルを学ぶために再生する。
第二に、サンプル効率が良い。
第三に、世界モデルが生み出す軌道の不確実性を通じて、タスクに依存しない探索戦略を提供する。
我々は,世界モデルが単純かつ効果的な強化学習ベースラインであることを示す。
本研究は,MinigridおよびMinihack継続強化学習ベンチマークにおいて,その効果を検証し,タスク非依存連続強化学習手法の状況よりも優れていることを示す。
関連論文リスト
- A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。