論文の概要: Structured State Space Models for In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.03982v1
- Date: Tue, 7 Mar 2023 15:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:45:19.260717
- Title: Structured State Space Models for In-Context Reinforcement Learning
- Title(参考訳): 文脈強化学習のための構造化状態空間モデル
- Authors: Chris Lu, Yannick Schroecker, Albert Gu, Emilio Parisotto, Jakob
Foerster, Satinder Singh, Feryal Behbahani
- Abstract要約: 構造化状態空間列(S4)モデルは、最近、長距離シーケンスモデリングタスクにおいて最先端の性能を達成した。
隠れた状態を並列に初期化およびリセットできるS4の変種に対する修正を提案する。
- 参考スコア(独自算出の注目度): 36.32481561675067
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Structured state space sequence (S4) models have recently achieved
state-of-the-art performance on long-range sequence modeling tasks. These
models also have fast inference speeds and parallelisable training, making them
potentially useful in many reinforcement learning settings. We propose a
modification to a variant of S4 that enables us to initialise and reset the
hidden state in parallel, allowing us to tackle reinforcement learning tasks.
We show that our modified architecture runs asymptotically faster than
Transformers and performs better than LSTM models on a simple memory-based
task. Then, by leveraging the model's ability to handle long-range sequences,
we achieve strong performance on a challenging meta-learning task in which the
agent is given a randomly-sampled continuous control environment, combined with
a randomly-sampled linear projection of the environment's observations and
actions. Furthermore, we show the resulting model can adapt to
out-of-distribution held-out tasks. Overall, the results presented in this
paper suggest that the S4 models are a strong contender for the default
architecture used for in-context reinforcement learning
- Abstract(参考訳): structured state space sequence (s4)モデルは最近、長距離シーケンスモデリングタスクで最先端のパフォーマンスを達成している。
これらのモデルは高速な推論速度と並列トレーニングも備えており、多くの強化学習環境で有用である可能性がある。
本研究では,隠れた状態を並列に初期化,リセットすることが可能なS4の変種を改良し,強化学習タスクに取り組むことを提案する。
変更したアーキテクチャはトランスフォーマーよりも漸近的に高速に動作し、単純なメモリベースのタスクでLSTMモデルよりも優れた性能を発揮する。
そして,モデルが長距離シーケンスを処理できる能力を活用することで,エージェントがランダムにサンプリングされた連続的な制御環境と,ランダムにサンプリングされた環境の観察と行動の線形投影を併用した,挑戦的なメタ学習タスクにおいて,高い性能を達成する。
さらに,結果モデルが分散処理に適応できることを示す。
全体として,本論文で示した結果は,s4モデルがコンテキスト内強化学習に使用されるデフォルトアーキテクチャの強力な候補であることを示唆している。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Long Range Language Modeling via Gated State Spaces [67.64091993846269]
本稿では,英語書籍,Githubソースコード,ArXiv数学論文の自己回帰シーケンスモデリングに焦点をあてる。
Gated State Space (GSS) と呼ばれる新しい層を提案し、S4の対角線よりもかなり高速に訓練可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T01:50:18Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - The Untapped Potential of Off-the-Shelf Convolutional Neural Networks [29.205446247063673]
ResNet-50のような既存の市販モデルは、ImageNet上で95%以上の精度を持つことを示す。
このレベルのパフォーマンスは現在、20倍以上のパラメータとはるかに複雑なトレーニング手順を持つモデルを上回る。
論文 参考訳(メタデータ) (2021-03-17T20:04:46Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。