論文の概要: One-shot World Models Using a Transformer Trained on a Synthetic Prior
- arxiv url: http://arxiv.org/abs/2409.14084v2
- Date: Thu, 24 Oct 2024 18:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:44:25.326292
- Title: One-shot World Models Using a Transformer Trained on a Synthetic Prior
- Title(参考訳): 合成先行学習用変圧器を用いたワンショット世界モデル
- Authors: Fabio Ferreira, Moreno Schlageter, Raghu Rajan, Andre Biedenkapp, Frank Hutter,
- Abstract要約: ワンショット世界モデル(英: One-Shot World Model、OSWM)は、純粋に合成データからコンテキスト内学習形式で学習されるトランスフォーマー世界モデルである。
OSWMは、シンプルなグリッド世界のダイナミクスや、CartPoleのジム、カスタムコントロール環境に迅速に適応できる。
- 参考スコア(独自算出の注目度): 37.027893127637036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A World Model is a compressed spatial and temporal representation of a real world environment that allows one to train an agent or execute planning methods. However, world models are typically trained on observations from the real world environment, and they usually do not enable learning policies for other real environments. We propose One-Shot World Model (OSWM), a transformer world model that is learned in an in-context learning fashion from purely synthetic data sampled from a prior distribution. Our prior is composed of multiple randomly initialized neural networks, where each network models the dynamics of each state and reward dimension of a desired target environment. We adopt the supervised learning procedure of Prior-Fitted Networks by masking next-state and reward at random context positions and query OSWM to make probabilistic predictions based on the remaining transition context. During inference time, OSWM is able to quickly adapt to the dynamics of a simple grid world, as well as the CartPole gym and a custom control environment by providing 1k transition steps as context and is then able to successfully train environment-solving agent policies. However, transferring to more complex environments remains a challenge, currently. Despite these limitations, we see this work as an important stepping-stone in the pursuit of learning world models purely from synthetic data.
- Abstract(参考訳): World Model(ワールドモデル)は、実世界の環境を圧縮した空間的・時間的表現で、エージェントの訓練や計画手法の実行を可能にする。
しかしながら、世界モデルは一般的に実環境からの観察に基づいて訓練されており、通常、他の実環境に対する学習ポリシーを適用できない。
先行分布からサンプリングした純粋合成データから文脈内学習方式で学習するトランスフォーマー世界モデルであるOne-Shot World Model (OSWM)を提案する。
我々の前者は、複数のランダムに初期化されたニューラルネットワークで構成されており、各ネットワークは、所望の目標環境のそれぞれの状態のダイナミクスと報酬次元をモデル化する。
我々は、次状態と報酬をランダムなコンテキスト位置でマスキングし、OSWMに問い合わせ、残余の遷移コンテキストに基づいて確率的予測を行うことにより、事前入力ネットワークの教師付き学習手順を採用する。
推論時間の間、OSWMは1kトランジションステップをコンテキストとして提供することで、単純なグリッド世界のダイナミクス、CartPoleのジムとカスタムコントロール環境に迅速に適応することができ、環境解決エージェントポリシーのトレーニングを成功させることができる。
しかし、より複雑な環境への移動は依然として課題である。
これらの制限にもかかわらず、我々はこの研究を、純粋に合成データから世界モデルを学ぶための重要な足掛かりと見なしている。
関連論文リスト
- Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-06-13T02:03:22Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Gradient-based Planning with World Models [21.9392160209565]
我々は、世界モデルの微分可能性を完全に活用する勾配に基づく代替案について検討する。
サンプル効率のよい設定では、ほとんどのタスクの代替手法と比較して、同等あるいは優れた性能が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:54:21Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Quantifying Multimodality in World Models [5.593667856320704]
RLに基づく世界モデルにおけるマルチモーダル不確実性の検出と定量化のための新しい指標を提案する。
不確実な将来の状態の正しいモデリングと検出は、安全な方法で重要な状況を扱うための基盤となる。
論文 参考訳(メタデータ) (2021-12-14T09:52:18Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。