論文の概要: ED2: Environment Dynamics Decomposition World Models for Continuous
Control
- arxiv url: http://arxiv.org/abs/2112.02817v2
- Date: Thu, 15 Feb 2024 16:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 21:33:25.973485
- Title: ED2: Environment Dynamics Decomposition World Models for Continuous
Control
- Title(参考訳): ED2: 連続制御のための環境ダイナミクス分解世界モデル
- Authors: Jianye Hao, Yifu Yuan, Cong Wang, Zhen Wang
- Abstract要約: 環境ダイナミクス分解(ED2)は、新しい世界モデル構築フレームワークである。
ED2には、サブダイナミックス発見(SD2)と動的分解予測(D2P)の2つの重要なコンポーネントが含まれている。
ED2はモデル誤差を著しく低減し、サンプル効率を向上し、最先端のモデルベース強化学習アルゴリズムと組み合わせて高い性能を達成する。
- 参考スコア(独自算出の注目度): 47.90827692680224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) achieves significant sample
efficiency in practice in comparison to model-free RL, but its performance is
often limited by the existence of model prediction error. To reduce the model
error, standard MBRL approaches train a single well-designed network to fit the
entire environment dynamics, but this wastes rich information on multiple
sub-dynamics which can be modeled separately, allowing us to construct the
world model more accurately. In this paper, we propose the Environment Dynamics
Decomposition (ED2), a novel world model construction framework that models the
environment in a decomposing manner. ED2 contains two key components:
sub-dynamics discovery (SD2) and dynamics decomposition prediction (D2P). SD2
discovers the sub-dynamics in an environment automatically and then D2P
constructs the decomposed world model following the sub-dynamics. ED2 can be
easily combined with existing MBRL algorithms and empirical results show that
ED2 significantly reduces the model error, increases the sample efficiency, and
achieves higher asymptotic performance when combined with the state-of-the-art
MBRL algorithms on various continuous control tasks. Our code is open source
and available at https://github.com/ED2-source-code/ED2.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、モデルフリーのRLと比較して、実際にかなりのサンプル効率を達成するが、その性能はモデル予測誤差の存在によって制限されることが多い。
モデルエラーを減らすために、標準的なmbrlアプローチは、環境のダイナミクス全体に適合するように設計された単一のネットワークを訓練するが、これは個別にモデル化できる複数のサブダイナミクスに関する豊富な情報を浪費し、世界モデルをより正確に構築できる。
本稿では,環境を分解的にモデル化する新しい世界モデル構築フレームワークであるEnvironmental Dynamics Decomposition (ED2)を提案する。
ED2には、サブダイナミックス発見(SD2)と動的分解予測(D2P)の2つの重要なコンポーネントが含まれている。
SD2は環境のサブダイナミックスを自動的に発見し、D2Pはサブダイナミックスに従って分解された世界モデルを構築する。
ED2は既存のMBRLアルゴリズムと簡単に組み合わせることができ、実験結果から、ED2はモデル誤差を著しく低減し、サンプル効率を向上し、様々な連続制御タスクにおける最先端のMBRLアルゴリズムと組み合わせることで、より漸近的な性能を達成することが示された。
私たちのコードはオープンソースで、https://github.com/ED2-source-code/ED2で利用可能です。
関連論文リスト
- Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T04:56:43Z) - Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - Can AI be enabled to dynamical downscaling? A Latent Diffusion Model to mimic km-scale COSMO5.0\_CLM9 simulations [0.0]
ダウンスケーリング技術は、地球システムモデリングにおけるディープラーニング(DL)の最も顕著な応用の1つである。
本研究では,イタリア上空のERA5データを2kmまでダウンスケールするために,LDM(Latent Diffusion Model)を適用した。
我々のゴールは、最近の生成モデリングの進歩により、DLが数値力学モデルに匹敵する結果をもたらすことを実証することである。
論文 参考訳(メタデータ) (2024-06-19T15:20:28Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory
Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。
本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文 参考訳(メタデータ) (2022-07-11T04:52:28Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。