論文の概要: STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.09615v1
- Date: Sat, 14 Oct 2023 16:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 19:21:08.078395
- Title: STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning
- Title(参考訳): STORM:強化学習のための効率的な確率変換器に基づく世界モデル
- Authors: Weipu Zhang, Gang Wang, Jian Sun, Yetian Yuan, Gao Huang
- Abstract要約: 近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
- 参考スコア(独自算出の注目度): 82.03481509373037
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, model-based reinforcement learning algorithms have demonstrated
remarkable efficacy in visual input environments. These approaches begin by
constructing a parameterized simulation world model of the real environment
through self-supervised learning. By leveraging the imagination of the world
model, the agent's policy is enhanced without the constraints of sampling from
the real environment. The performance of these algorithms heavily relies on the
sequence modeling and generation capabilities of the world model. However,
constructing a perfectly accurate model of a complex unknown environment is
nearly impossible. Discrepancies between the model and reality may cause the
agent to pursue virtual goals, resulting in subpar performance in the real
environment. Introducing random noise into model-based reinforcement learning
has been proven beneficial. In this work, we introduce Stochastic
Transformer-based wORld Model (STORM), an efficient world model architecture
that combines the strong sequence modeling and generation capabilities of
Transformers with the stochastic nature of variational autoencoders. STORM
achieves a mean human performance of $126.7\%$ on the Atari $100$k benchmark,
setting a new record among state-of-the-art methods that do not employ
lookahead search techniques. Moreover, training an agent with $1.85$ hours of
real-time interaction experience on a single NVIDIA GeForce RTX 3090 graphics
card requires only $4.3$ hours, showcasing improved efficiency compared to
previous methodologies.
- Abstract(参考訳): 近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な効果を示した。
これらのアプローチは、自己教師付き学習を通じて実環境のパラメータ化シミュレーションワールドモデルを構築することから始まる。
世界モデルの想像力を活用することにより、エージェントのポリシーは実環境からのサンプリングの制約なしに強化される。
これらのアルゴリズムの性能は、世界モデルのシーケンスモデリングと生成能力に大きく依存している。
しかし、複雑な未知環境の完全正確なモデルを構築することはほぼ不可能である。
モデルと現実の間の不一致はエージェントが仮想目標を追求し、結果として実際の環境でのパフォーマンスが劣る可能性がある。
モデルに基づく強化学習にランダムノイズを導入することは有益であることが証明されている。
本稿では,Stochastic Transformer-based wORld Model (STORM)を紹介する。これは,Stochastic Transformerの強いシーケンスモデリングと生成能力と変分オートエンコーダの確率的性質を組み合わせた,効率的な世界モデルアーキテクチャである。
STORMは、Atari 100$kベンチマークで平均126.7\%の人的パフォーマンスを達成し、ルックアヘッド検索技術を使用しない最先端のメソッドの中で、新しい記録を樹立した。
さらに、NVIDIA GeForce RTX 3090グラフィックスカード1枚に1.85ドルのリアルタイムインタラクション体験を持つエージェントをトレーニングするには、わずか4.3ドルの時間しか必要とせず、従来の手法と比べて効率が向上したことを示している。
関連論文リスト
- Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文 参考訳(メタデータ) (2022-09-01T17:03:07Z) - Real-time Neural-MPC: Deep Learning Model Predictive Control for
Quadrotors and Agile Robotic Platforms [59.03426963238452]
モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。
ニューラルネットワークを使わずに、最先端のMPCアプローチと比較して、位置追跡誤差を最大82%削減することで、実世界の問題に対する我々のフレームワークの実現可能性を示す。
論文 参考訳(メタデータ) (2022-03-15T09:38:15Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Smaller World Models for Reinforcement Learning [0.5156484100374059]
ベクトル量子化変分オートエンコーダ(VQ-VAE)に基づく世界モデルのための新しいニューラルネットワークアーキテクチャを提案する。
モデルフリーPPOエージェントは、世界モデルからのシミュレーション体験に基づいて純粋に訓練される。
我々はSimPLeアルゴリズムに匹敵する性能を示したが、我々のモデルははるかに小さい。
論文 参考訳(メタデータ) (2020-10-12T15:02:41Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。