論文の概要: Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.06800v3
- Date: Mon, 29 Jun 2020 06:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 04:31:15.910932
- Title: Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning
- Title(参考訳): モデルベース強化学習における一般化のための文脈認識ダイナミクスモデル
- Authors: Kimin Lee, Younggyo Seo, Seunghyun Lee, Honglak Lee, Jinwoo Shin
- Abstract要約: グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
- 参考スコア(独自算出の注目度): 124.9856253431878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (RL) enjoys several benefits, such as
data-efficiency and planning, by learning a model of the environment's
dynamics. However, learning a global model that can generalize across different
dynamics is a challenging task. To tackle this problem, we decompose the task
of learning a global dynamics model into two stages: (a) learning a context
latent vector that captures the local dynamics, then (b) predicting the next
state conditioned on it. In order to encode dynamics-specific information into
the context latent vector, we introduce a novel loss function that encourages
the context latent vector to be useful for predicting both forward and backward
dynamics. The proposed method achieves superior generalization ability across
various simulated robotics and control tasks, compared to existing RL schemes.
- Abstract(参考訳): モデルに基づく強化学習(RL)は、環境のダイナミクスのモデルを学ぶことによって、データ効率や計画といったいくつかの利点を享受する。
しかし、異なるダイナミクスをまたいで一般化できるグローバルモデルを学ぶことは難しい課題です。
この問題に取り組むために、グローバルダイナミクスモデルを学ぶタスクを2つのステージに分解する。
(a)局所ダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し、
(b)それを条件とした次の状態を予測すること。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
関連論文リスト
- Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Prototypical context-aware dynamics generalization for high-dimensional
model-based reinforcement learning [40.88574224514982]
本稿では,時間一貫した潜在コンテキストによって局所的ダイナミクスをキャプチャするプロトタイプ型コンテキスト認識ダイナミクス(ProtoCAD)モデルを提案する。
ProtoCADは、すべての動的一般化タスクに対して平均と中央値のパフォーマンスが13.2%と26.7%向上している。
論文 参考訳(メタデータ) (2022-11-23T08:42:59Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。