論文の概要: Predicting the Future with Simple World Models
- arxiv url: http://arxiv.org/abs/2401.17835v1
- Date: Wed, 31 Jan 2024 13:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:26:57.573017
- Title: Predicting the Future with Simple World Models
- Title(参考訳): シンプルな世界モデルによる未来予測
- Authors: Tankred Saanum, Peter Dayan, Eric Schulz
- Abstract要約: 本稿では,世界モデルの潜在力学を単純化する正規化手法を提案する。
我々の正規化は下流タスクの精度、一般化、性能を改善する。
- 参考スコア(独自算出の注目度): 12.051527678467775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models can represent potentially high-dimensional pixel observations in
compact latent spaces, making it tractable to model the dynamics of the
environment. However, the latent dynamics inferred by these models may still be
highly complex. Abstracting the dynamics of the environment with simple models
can have several benefits. If the latent dynamics are simple, the model may
generalize better to novel transitions, and discover useful latent
representations of environment states. We propose a regularization scheme that
simplifies the world model's latent dynamics. Our model, the Parsimonious
Latent Space Model (PLSM), minimizes the mutual information between latent
states and the dynamics that arise between them. This makes the dynamics softly
state-invariant, and the effects of the agent's actions more predictable. We
combine the PLSM with three different model classes used for i) future latent
state prediction, ii) video prediction, and iii) planning. We find that our
regularization improves accuracy, generalization, and performance in downstream
tasks.
- Abstract(参考訳): 世界モデルは、コンパクトな潜在空間で潜在的に高次元のピクセル観測を表現でき、環境のダイナミクスをモデル化することができる。
しかし、これらのモデルによって推定される潜在力学は依然として非常に複雑である。
単純なモデルによる環境のダイナミクスの抽象化には,いくつかのメリットがある。
潜在力学が単純であれば、モデルはより新しい遷移に一般化し、環境状態の有用な潜在表現を見つけることができる。
我々は,世界モデルの潜在力学を単純化する正規化スキームを提案する。
我々のモデルであるParsimonious Latent Space Model (PLSM)は、潜在状態とそれらの間に生じるダイナミクスの間の相互情報を最小化する。
これにより、動的に状態不変となり、エージェントのアクションの効果がより予測可能となる。
plsmと3つの異なるモデルクラスを組み合わせることで
i) 将来の潜在状態予測
二 ビデオの予測、及び
三 計画を立てる。
我々の正規化は下流タスクの精度、一般化、性能を改善する。
関連論文リスト
- Making Large Language Models into World Models with Precondition and Effect Knowledge [1.8561812622368763]
本研究では,Large Language Models (LLM) を2つの重要な世界モデル関数の実行に利用することができることを示す。
我々は、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。
論文 参考訳(メタデータ) (2024-09-18T19:28:04Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Isolating and Leveraging Controllable and Noncontrollable Visual
Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。
まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。
第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文 参考訳(メタデータ) (2022-05-27T08:07:39Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。