論文の概要: Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient
- arxiv url: http://arxiv.org/abs/2410.08893v1
- Date: Fri, 11 Oct 2024 15:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:16:19.424496
- Title: Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient
- Title(参考訳): ドラマ「Mamba-Enabled Model-Based Reinforcement Learning is Sample and Parameter Efficient」
- Authors: Wenlong Wang, Ivana Dusparic, Yucheng Shi, Ke Zhang, Vinny Cahill,
- Abstract要約: 状態空間モデル(SSM)をベースとした世界モデルを提案する。
長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 9.519619751861333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (RL) offers a solution to the data inefficiency that plagues most model-free RL algorithms. However, learning a robust world model often demands complex and deep architectures, which are expensive to compute and train. Within the world model, dynamics models are particularly crucial for accurate predictions, and various dynamics-model architectures have been explored, each with its own set of challenges. Currently, recurrent neural network (RNN) based world models face issues such as vanishing gradients and difficulty in capturing long-term dependencies effectively. In contrast, use of transformers suffers from the well-known issues of self-attention mechanisms, where both memory and computational complexity scale as $O(n^2)$, with $n$ representing the sequence length. To address these challenges we propose a state space model (SSM) based world model, specifically based on Mamba, that achieves $O(n)$ memory and computational complexity while effectively capturing long-term dependencies and facilitating the use of longer training sequences efficiently. We also introduce a novel sampling method to mitigate the suboptimality caused by an incorrect world model in the early stages of training, combining it with the aforementioned technique to achieve a normalised score comparable to other state-of-the-art model-based RL algorithms using only a 7 million trainable parameter world model. This model is accessible and can be trained on an off-the-shelf laptop. Our code is available at https://github.com/realwenlongwang/drama.git.
- Abstract(参考訳): モデルベース強化学習(RL)は、ほとんどのモデルフリーなRLアルゴリズムを悩ませるデータ非効率性に対する解決策を提供する。
しかしながら、堅牢な世界モデルを学ぶには、計算とトレーニングにコストがかかる複雑で深いアーキテクチャを必要とすることが多い。
世界モデルの中では、動的モデルは特に正確な予測に不可欠であり、様々な動的モデルアーキテクチャがそれぞれ独自の課題を持って検討されている。
現在、リカレントニューラルネットワーク(RNN)ベースの世界モデルは、グラデーションの消滅や、長期的な依存関係を効果的に取得することの難しさといった問題に直面している。
対照的に、トランスフォーマーの使用は、メモリと計算の複雑さが$O(n^2)$となり、$n$がシーケンス長を表すという、自己保持機構のよく知られた問題に悩まされている。
これらの課題に対処するために、我々は状態空間モデル(SSM)に基づく世界モデルを提案し、特にMambaをベースとして、長期的依存関係を効果的に把握し、より長いトレーニングシーケンスの使用を容易にし、メモリと計算の複雑さを$O(n)で達成する。
また、トレーニングの初期段階において、誤った世界モデルによって引き起こされる亜最適性を緩和する新しいサンプリング手法を導入し、前述の手法と組み合わせて、700万のトレーニング可能なパラメータワールドモデルのみを用いて、他の最先端モデルベースRLアルゴリズムに匹敵する正規化スコアを得る。
このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
私たちのコードはhttps://github.com/realwenlongwang/drama.git.comで利用可能です。
関連論文リスト
- Learning to Walk from Three Minutes of Real-World Data with Semi-structured Dynamics Models [9.318262213262866]
コンタクトリッチシステムのための半構造化力学モデルを学習するための新しいフレームワークを提案する。
我々は,従来の手法よりもはるかに少ないデータで高精度な長距離予測を行う。
実世界のUnitree Go1四足歩行ロボットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-11T18:11:21Z) - Beyond Closure Models: Learning Chaotic-Systems via Physics-Informed Neural Operators [78.64101336150419]
カオスシステムの長期的挙動を予測することは、気候モデリングなどの様々な応用に不可欠である。
このような完全解法シミュレーションに対する別のアプローチは、粗いグリッドを使用して、時間テキストモデルによってエラーを修正することである。
この制限を克服する物理インフォームド・ニューラル演算子(PINO)を用いたエンド・ツー・エンドの学習手法を提案する。
論文 参考訳(メタデータ) (2024-08-09T17:05:45Z) - Efficient World Models with Context-Aware Tokenization [22.84676306124071]
$Delta$-IRISは、時間ステップ間のデルタをエンコードする離散オートエンコーダで構成されるワールドモデルアーキテクチャを備えた新しいエージェントである。
Crafterのベンチマークでは、$Delta$-IRISは、複数のフレーム予算で新しい最先端の技術を設定します。
論文 参考訳(メタデータ) (2024-06-27T16:54:12Z) - Locality Sensitive Sparse Encoding for Learning World Models Online [29.124825481348285]
Follow-The-Leader世界モデルはモデルに基づく強化学習に望ましい。
FTLモデルは、FTLを達成するために、すべての相互作用ステップで蓄積されたデータを再学習する必要がある。
我々の世界モデルは、リプレイで訓練されたディープワールドモデルの性能に匹敵するか、適合するかのどちらかで、1パスの軌跡データを使ってオンラインで学習した。
論文 参考訳(メタデータ) (2024-01-23T19:00:02Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Multi-timestep models for Model-based Reinforcement Learning [10.940666275830052]
モデルベース強化学習(MBRL)では、ほとんどのアルゴリズムはデータに基づいて学習した1ステップのダイナミックスモデルからの軌道のシミュレーションに依存している。
我々は、マルチステップの目標を用いてワンステップモデルをトレーニングすることでこの問題に対処する。
指数関数的に減衰する重みは、長い水平R2スコアを著しく改善するモデルに繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-09T12:42:39Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。