論文の概要: ED2: An Environment Dynamics Decomposition Framework for World Model
Construction
- arxiv url: http://arxiv.org/abs/2112.02817v1
- Date: Mon, 6 Dec 2021 07:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:05:51.220229
- Title: ED2: An Environment Dynamics Decomposition Framework for World Model
Construction
- Title(参考訳): ED2:世界モデル構築のための環境ダイナミクス分解フレームワーク
- Authors: Cong Wang, Tianpei Yang, Jianye Hao, Yan Zheng, Hongyao Tang, Fazl
Barez, Jinyi Liu, Jiajie Peng, Haiyin Piao, Zhixiao Sun
- Abstract要約: 環境ダイナミクス分解(ED2)は、環境を分解的にモデル化する新しい世界モデル構築フレームワークである。
ED2は既存のMBRLアルゴリズムと簡単に組み合わせることができ、実験結果からED2がモデル誤差を大幅に低減することが示された。
- 参考スコア(独自算出の注目度): 26.980872649140995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning methods achieve significant sample
efficiency in many tasks, but their performance is often limited by the
existence of the model error. To reduce the model error, previous works use a
single well-designed network to fit the entire environment dynamics, which
treats the environment dynamics as a black box. However, these methods lack to
consider the environmental decomposed property that the dynamics may contain
multiple sub-dynamics, which can be modeled separately, allowing us to
construct the world model more accurately. In this paper, we propose the
Environment Dynamics Decomposition (ED2), a novel world model construction
framework that models the environment in a decomposing manner. ED2 contains two
key components: sub-dynamics discovery (SD2) and dynamics decomposition
prediction (D2P). SD2 discovers the sub-dynamics in an environment and then D2P
constructs the decomposed world model following the sub-dynamics. ED2 can be
easily combined with existing MBRL algorithms and empirical results show that
ED2 significantly reduces the model error and boosts the performance of the
state-of-the-art MBRL algorithms on various tasks.
- Abstract(参考訳): モデルベース強化学習法は,多くのタスクにおいて有意なサンプル効率を達成するが,その性能はモデル誤差の存在によって制限されることが多い。
モデルエラーを減らすために、以前の作業では、環境のダイナミクス全体をブラックボックスとして扱うために、1つのよく設計されたネットワークを使用する。
しかし, これらの手法は, 動的に複数のサブダイナミクスを含む環境分解特性を考慮せず, 個別にモデル化できるため, より正確に世界モデルを構築することができる。
本稿では,環境を分解的にモデル化する新しい世界モデル構築フレームワークであるEnvironmental Dynamics Decomposition (ED2)を提案する。
ED2には、サブダイナミックス発見(SD2)と動的分解予測(D2P)の2つの重要なコンポーネントが含まれている。
SD2は環境のサブダイナミックスを発見し、D2Pはサブダイナミックスに従って分解された世界モデルを構築する。
ED2は既存のMBRLアルゴリズムと簡単に組み合わせることができ、実験の結果、ED2はモデルエラーを著しく低減し、様々なタスクにおける最先端のMBRLアルゴリズムの性能を高めることが示されている。
関連論文リスト
- Off-dynamics Conditional Diffusion Planners [15.321049697197447]
この研究は、オフラインRLにおけるデータ不足の課題に対処するために、より容易に利用できるオフダイナミックスデータセットの使用を探求する。
本研究では,DPMを用いた大規模オフダイナミックスデータセットと限定ターゲットデータセットの連成分布の学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T04:56:43Z) - Can AI be enabled to dynamical downscaling? A Latent Diffusion Model to mimic km-scale COSMO5.0\_CLM9 simulations [0.0]
ダウンスケーリング技術は、地球システムモデリングにおけるディープラーニング(DL)の最も顕著な応用の1つである。
本研究では,イタリア上空のERA5データを2kmまでダウンスケールするために,LDM(Latent Diffusion Model)を適用した。
我々のゴールは、最近の生成モデリングの進歩により、DLが数値力学モデルに匹敵する結果をもたらすことを実証することである。
論文 参考訳(メタデータ) (2024-06-19T15:20:28Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - A Two-Scale Complexity Measure for Deep Learning Models [2.512406961007489]
有効次元に基づく統計モデルのための新しいキャパシティ尺度2sEDを導入する。
新しい量は、モデル上の軽度の仮定の下で一般化誤差を証明的に有界にする。
標準データセットと一般的なモデルアーキテクチャのシミュレーションは、2sEDがトレーニングエラーとよく相関していることを示している。
論文 参考訳(メタデータ) (2024-01-17T12:50:50Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory
Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。
本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文 参考訳(メタデータ) (2022-07-11T04:52:28Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。