論文の概要: Facing Off World Model Backbones: RNNs, Transformers, and S4
- arxiv url: http://arxiv.org/abs/2307.02064v2
- Date: Thu, 9 Nov 2023 16:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:14:54.312461
- Title: Facing Off World Model Backbones: RNNs, Transformers, and S4
- Title(参考訳): World Modelのバックボーンに挑戦する - RNN、Transformers、S4
- Authors: Fei Deng, Junyeong Park, Sungjin Ahn
- Abstract要約: 世界モデルはモデルベース強化学習(MBRL)の基本要素である
我々はS4を含む並列化可能なSSMと互換性のある最初の世界モデルであるS4WMを提案する。
以上の結果から,S4WMは長期記憶においてトランスフォーマーをベースとした世界モデルより優れており,トレーニングや想像力の面では効率がよいことが示唆された。
- 参考スコア(独自算出の注目度): 24.818868307093766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models are a fundamental component in model-based reinforcement
learning (MBRL). To perform temporally extended and consistent simulations of
the future in partially observable environments, world models need to possess
long-term memory. However, state-of-the-art MBRL agents, such as Dreamer,
predominantly employ recurrent neural networks (RNNs) as their world model
backbone, which have limited memory capacity. In this paper, we seek to explore
alternative world model backbones for improving long-term memory. In
particular, we investigate the effectiveness of Transformers and Structured
State Space Sequence (S4) models, motivated by their remarkable ability to
capture long-range dependencies in low-dimensional sequences and their
complementary strengths. We propose S4WM, the first world model compatible with
parallelizable SSMs including S4 and its variants. By incorporating latent
variable modeling, S4WM can efficiently generate high-dimensional image
sequences through latent imagination. Furthermore, we extensively compare RNN-,
Transformer-, and S4-based world models across four sets of environments, which
we have tailored to assess crucial memory capabilities of world models,
including long-term imagination, context-dependent recall, reward prediction,
and memory-based reasoning. Our findings demonstrate that S4WM outperforms
Transformer-based world models in terms of long-term memory, while exhibiting
greater efficiency during training and imagination. These results pave the way
for the development of stronger MBRL agents.
- Abstract(参考訳): 世界モデルはモデルベース強化学習(mbrl)の基本要素である。
部分的に観測可能な環境で未来を時間的に拡張し一貫したシミュレーションを行うには、世界モデルは長期記憶を持つ必要がある。
しかしながら、dreamerのような最先端のmbrlエージェントは、メモリ容量を制限した世界モデルバックボーンとしてrecurrent neural networks(rnn)を主に採用している。
本稿では,長期記憶改善のための代替世界モデルバックボーンについて検討する。
特に、トランスフォーマーと構造化状態空間シーケンス(S4)モデルの有効性について検討し、低次元列における長距離依存性と相補的強みを捉えることによる顕著な能力に動機づけられた。
我々はS4を含む並列化可能なSSMと互換性のある最初の世界モデルであるS4WMを提案する。
潜時変数モデリングを取り入れることで、S4WMは潜時想像力によって高次元画像列を効率的に生成することができる。
さらに、RNN-、Transformer-、S4-based world modelを4つの環境群で比較し、長期的想像力、文脈依存リコール、報酬予測、メモリベースの推論を含む世界モデルの重要な記憶能力を評価するように調整した。
以上の結果から,S4WMは長期記憶においてトランスフォーマーをベースとした世界モデルより優れており,トレーニングや想像力の面では効率が優れていた。
これらの結果は、より強力なMBRL剤の開発への道を開いた。
関連論文リスト
- Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - FACTS: A Factored State-Space Framework For World Modelling [24.08175276756845]
本研究では,時空間空間モデリングのための新しいリカレントフレームワークであるtextbfFACTored textbfState-space (textbfFACTS) モデルを提案する。
FACTSフレームワークは、置換可能なメモリ表現を学習するルーティング機構を備えたグラフメモリを構築する。
汎用的な世界モデリング設計にもかかわらず、常に最先端のモデルに勝ったり、マッチする。
論文 参考訳(メタデータ) (2024-10-28T11:04:42Z) - Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Mastering Memory Tasks with World Models [12.99255437732525]
現在のモデルベース強化学習(MBRL)エージェントは、長期依存に苦慮している。
本稿では,時間的コヒーレンスを改善するための新しい手法であるRecall to Imagine (R2I)を提案する。
R2Iは、メモリとクレジットの割り当てに挑戦するRLタスクのための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2024-03-07T06:35:59Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - TransDreamer: Reinforcement Learning with Transformer World Models [33.34909288732319]
我々はTransDreamerと呼ばれるトランスフォーマーに基づくモデルベース強化学習エージェントを提案する。
まず、トランスフォーマー状態空間モデルを紹介し、この世界モデルをトランスフォーマーベースのポリシーネットワークと共有し、トランスフォーマーベースのRLエージェントをトレーニングする安定性を得る。
実験では,2次元の視覚的RLと3次元の視覚的RLタスクに対して,メモリベースの推論において,長期のメモリアクセスを必要とする2つの視覚的RLタスクに提案モデルを適用し,これらの複雑なタスクにおいて,提案モデルがドリーマーより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-19T00:30:52Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。