論文の概要: Improving Model-Based Reinforcement Learning with Internal State
Representations through Self-Supervision
- arxiv url: http://arxiv.org/abs/2102.05599v1
- Date: Wed, 10 Feb 2021 17:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:32:14.038353
- Title: Improving Model-Based Reinforcement Learning with Internal State
Representations through Self-Supervision
- Title(参考訳): 自己スーパービジョンによる内部状態表現によるモデルベース強化学習の改善
- Authors: Julien Scholz, Cornelius Weber, Muhammad Burhan Hafez and Stefan
Wermter
- Abstract要約: 環境のモデルを使用することで、強化学習エージェントは将来の動きを計画し、チェス、ショギ、ゴーといったボードゲームでパフォーマンスを達成することができる。
環境モデルも動的に学習でき、エージェントを多くのタスクに一般化し、同時に最先端のパフォーマンスを達成することができる。
我々の修正により、MuZeroの自己教師付き事前訓練も可能となり、目標が達成される前に、アルゴリズムは環境力学について学ぶことができる。
- 参考スコア(独自算出の注目度): 19.37841173522973
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Using a model of the environment, reinforcement learning agents can plan
their future moves and achieve superhuman performance in board games like
Chess, Shogi, and Go, while remaining relatively sample-efficient. As
demonstrated by the MuZero Algorithm, the environment model can even be learned
dynamically, generalizing the agent to many more tasks while at the same time
achieving state-of-the-art performance. Notably, MuZero uses internal state
representations derived from real environment states for its predictions. In
this paper, we bind the model's predicted internal state representation to the
environment state via two additional terms: a reconstruction model loss and a
simpler consistency loss, both of which work independently and unsupervised,
acting as constraints to stabilize the learning process. Our experiments show
that this new integration of reconstruction model loss and simpler consistency
loss provide a significant performance increase in OpenAI Gym environments. Our
modifications also enable self-supervised pretraining for MuZero, so the
algorithm can learn about environment dynamics before a goal is made available.
- Abstract(参考訳): 環境のモデルを用いて、強化学習エージェントは将来の動きを計画し、チェス、ショギ、ゴなどのボードゲームで超人的なパフォーマンスを達成することができる。
muzeroアルゴリズムが示すように、環境モデルは動的に学習することもでき、エージェントをより多くのタスクに一般化し、同時に最先端のパフォーマンスを達成することができる。
特にMuZeroは、実際の環境状態から派生した内部状態表現を予測に使用します。
本稿では,モデルが予測した内部状態表現を,学習過程を安定させる制約として,独立して動作し,教師なしで動作する再構成モデル損失と簡易な一貫性損失という2つの用語によって,環境状態に結合する。
実験の結果,OpenAI Gym環境における再構成モデル損失と簡易な一貫性損失の新たな統合により,大幅な性能向上が期待できることがわかった。
我々の修正により、MuZeroの自己教師付き事前訓練も可能となり、目標が達成される前に、アルゴリズムは環境力学について学ぶことができる。
関連論文リスト
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Concept-modulated model-based offline reinforcement learning for rapid
generalization [5.512991103610139]
本研究では,環境概念や非教師付き手法で学習したダイナミックスに制約されたシナリオを自己生成する手法を提案する。
特に、エージェントの環境の内部モデルは、エージェントの動作に敏感な入力空間の低次元概念表現に条件付けされる。
モデルベースおよびモデルフリーアプローチと比較して,特定の障害事例の異なるインスタンスに対するワンショット一般化の劇的な改善と,同様のバリエーションに対するゼロショット一般化を示す。
論文 参考訳(メタデータ) (2022-09-07T15:06:38Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Visualizing MuZero Models [0.23624125155742054]
モデルベースの強化学習アルゴリズムであるMuZeroは、チェス、ショギ、Goのゲームで最先端のパフォーマンスを達成した。
我々は MuZero エージェントの潜伏表現を可視化する。
MuZeroの性能を安定させるための2つの正規化手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T15:25:17Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。