論文の概要: Dropout's Dream Land: Generalization from Learned Simulators to Reality
- arxiv url: http://arxiv.org/abs/2109.08342v1
- Date: Fri, 17 Sep 2021 03:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 23:39:10.088116
- Title: Dropout's Dream Land: Generalization from Learned Simulators to Reality
- Title(参考訳): Dropoutのドリームランド:学習シミュレータから現実への一般化
- Authors: Zac Wellmer, James T. Kwok
- Abstract要約: 世界モデルは環境をシミュレートするための生成モデルである。
本研究では,ドリーム環境から現実環境への一般化能力の向上について検討する。
本稿では,ニューラルネットワークのドリーム環境から現実へ移行するコントローラの能力を改善するための一般的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 33.9093915440877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A World Model is a generative model used to simulate an environment. World
Models have proven capable of learning spatial and temporal representations of
Reinforcement Learning environments. In some cases, a World Model offers an
agent the opportunity to learn entirely inside of its own dream environment. In
this work we explore improving the generalization capabilities from dream
environments to real environments (Dream2Real). We present a general approach
to improve a controller's ability to transfer from a neural network dream
environment to reality at little additional cost. These improvements are gained
by drawing on inspiration from Domain Randomization, where the basic idea is to
randomize as much of a simulator as possible without fundamentally changing the
task at hand. Generally, Domain Randomization assumes access to a pre-built
simulator with configurable parameters but oftentimes this is not available. By
training the World Model using dropout, the dream environment is capable of
creating a nearly infinite number of different dream environments. Previous use
cases of dropout either do not use dropout at inference time or averages the
predictions generated by multiple sampled masks (Monte-Carlo Dropout).
Dropout's Dream Land leverages each unique mask to create a diverse set of
dream environments. Our experimental results show that Dropout's Dream Land is
an effective technique to bridge the reality gap between dream environments and
reality. Furthermore, we additionally perform an extensive set of ablation
studies.
- Abstract(参考訳): 世界モデルは環境をシミュレートするために使用される生成モデルである。
世界モデルは強化学習環境の空間的および時間的表現を学習できることが証明されている。
場合によっては、World Modelはエージェントが自分の夢の中で完全に学習する機会を提供する。
本研究では、夢環境から現実環境(dream2real)への一般化能力の向上について検討する。
本稿では,ニューラルネットワークのドリーム環境から現実に移行するコントローラの能力を改善するための一般的なアプローチを提案する。
これらの改善は、ドメインのランダム化からインスピレーションを得て得られるもので、基本的なアイデアは、手元のタスクを根本的に変えることなく、できるだけ多くのシミュレータをランダム化することだ。
一般的にドメインランダム化は、設定可能なパラメータを持つプレビルドシミュレータへのアクセスを前提としているが、多くの場合、利用できない。
ドロップアウトを使ってワールドモデルをトレーニングすることで、夢の環境はほぼ無限の異なる夢の環境を作り出すことができる。
従来のドロップアウトは、推論時にドロップアウトを使用しないか、複数のサンプルマスク(Monte-Carlo Dropout)によって生成された予測を平均化する。
DropoutのDream Landは、それぞれのユニークなマスクを活用して、多様なドリーム環境を作り出す。
実験の結果,Dropout's Dream Landは,夢と現実のギャップを埋める有効な手法であることがわかった。
さらに,広範囲にわたるアブレーション研究も実施している。
関連論文リスト
- Learning autonomous driving from aerial imagery [67.06858775696453]
フォトグラムシミュレーターは、生成済みの資産を新しいビューに変換することによって、新しいビューを合成することができる。
我々は、ニューラルネットワーク場(NeRF)を中間表現として使用し、地上車両の視点から新しいビューを合成する。
論文 参考訳(メタデータ) (2024-10-18T05:09:07Z) - One-shot World Models Using a Transformer Trained on a Synthetic Prior [37.027893127637036]
ワンショット世界モデル(英: One-Shot World Model、OSWM)は、純粋に合成データからコンテキスト内学習形式で学習されるトランスフォーマー世界モデルである。
OSWMは、シンプルなグリッド世界のダイナミクスや、CartPoleのジム、カスタムコントロール環境に迅速に適応できる。
論文 参考訳(メタデータ) (2024-09-21T09:39:32Z) - WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens [75.02160668328425]
本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
論文 参考訳(メタデータ) (2024-01-18T14:01:20Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Hieros: Hierarchical Imagination on Structured State Space Sequence
World Models [4.922995343278039]
ヒエロス(Hieros)は、時間的抽象世界表現を学習し、潜在空間における複数の時間スケールでの軌跡を想像する階層的な政策である。
我々は,Atari 100kベンチマークにおいて,平均および中央値の正規化人間のスコアにおいて,この手法が技術状況より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-08T13:52:40Z) - DriveDreamer: Towards Real-world-driven World Models for Autonomous
Driving [76.24483706445298]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。
最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。
DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文 参考訳(メタデータ) (2023-09-18T13:58:42Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。