論文の概要: Hieros: Hierarchical Imagination on Structured State Space Sequence
World Models
- arxiv url: http://arxiv.org/abs/2310.05167v3
- Date: Sun, 18 Feb 2024 13:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:35:01.643411
- Title: Hieros: Hierarchical Imagination on Structured State Space Sequence
World Models
- Title(参考訳): Hieros: 構造化状態空間シーケンスワールドモデルに関する階層的イマジネーション
- Authors: Paul Mattes, Rainer Schlosser, Ralf Herbrich
- Abstract要約: ヒエロス(Hieros)は、時間的抽象世界表現を学習し、潜在空間における複数の時間スケールでの軌跡を想像する階層的な政策である。
我々は,Atari 100kベンチマークにおいて,平均および中央値の正規化人間のスコアにおいて,この手法が技術状況より優れていることを示す。
- 参考スコア(独自算出の注目度): 4.922995343278039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the biggest challenges to modern deep reinforcement learning (DRL)
algorithms is sample efficiency. Many approaches learn a world model in order
to train an agent entirely in imagination, eliminating the need for direct
environment interaction during training. However, these methods often suffer
from either a lack of imagination accuracy, exploration capabilities, or
runtime efficiency. We propose Hieros, a hierarchical policy that learns time
abstracted world representations and imagines trajectories at multiple time
scales in latent space. Hieros uses an S5 layer-based world model, which
predicts next world states in parallel during training and iteratively during
environment interaction. Due to the special properties of S5 layers, our method
can train in parallel and predict next world states iteratively during
imagination. This allows for more efficient training than RNN-based world
models and more efficient imagination than Transformer-based world models.
We show that our approach outperforms the state of the art in terms of mean
and median normalized human score on the Atari 100k benchmark, and that our
proposed world model is able to predict complex dynamics very accurately. We
also show that Hieros displays superior exploration capabilities compared to
existing approaches.
- Abstract(参考訳): 現代的深層強化学習(drl)アルゴリズムの最大の課題の1つはサンプル効率である。
多くのアプローチは、エージェントを完全に想像力で訓練するために世界モデルを学び、トレーニング中に直接環境相互作用の必要性をなくす。
しかし、これらの方法はしばしば想像力の正確さ、探索能力、実行時の効率の欠如に苦しむ。
本研究では,時間的抽象世界表現を学習し,複数の時間的空間における軌跡を推定する階層的ポリシーであるHierosを提案する。
hierosはs5レイヤベースの世界モデルを使用して、トレーニング中と環境相互作用中の反復的に次の世界状態を並列に予測する。
s5層の特殊性により,並列に学習し,イマジネーション中に次世界の状態を反復的に予測できる。
これにより、rnnベースのワールドモデルよりも効率的なトレーニングと、トランスフォーマーベースのワールドモデルよりも効率的なイマジネーションが可能になる。
このアプローチはatari 100kベンチマークで平均値と平均値の正規化人間のスコアの点でアートの状態を上回っており、提案する世界モデルは複雑なダイナミクスを非常に正確に予測できることを示した。
また、hierosは既存のアプローチよりも優れた探索能力を示している。
関連論文リスト
- Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:17:30Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - One-shot World Models Using a Transformer Trained on a Synthetic Prior [37.027893127637036]
ワンショット世界モデル(英: One-Shot World Model、OSWM)は、純粋に合成データからコンテキスト内学習形式で学習されるトランスフォーマー世界モデルである。
OSWMは、シンプルなグリッド世界のダイナミクスや、CartPoleのジム、カスタムコントロール環境に迅速に適応できる。
論文 参考訳(メタデータ) (2024-09-21T09:39:32Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Self-supervised novel 2D view synthesis of large-scale scenes with
efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。
我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。
実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-26T13:57:05Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文 参考訳(メタデータ) (2022-09-01T17:03:07Z) - Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。
本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-02T13:55:50Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。