論文の概要: Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient
- arxiv url: http://arxiv.org/abs/2410.08893v3
- Date: Thu, 10 Apr 2025 11:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:07.289642
- Title: Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient
- Title(参考訳): ドラマ「Mamba-Enabled Model-Based Reinforcement Learning is Sample and Parameter Efficient」
- Authors: Wenlong Wang, Ivana Dusparic, Yucheng Shi, Ke Zhang, Vinny Cahill,
- Abstract要約: 本稿では,SSM(State Space Model)ベースの世界モデルDramaを提案し,メモリと計算の複雑さを$O(n)$で実現した。
また, 早期のトレーニングにおいて, 誤った世界モデルによって引き起こされる準最適性を緩和する新しいサンプリング手法を提案する。
ドラマは、標準のラップトップのような市販のハードウェアでアクセス可能で、トレーニングできる。
- 参考スコア(独自算出の注目度): 9.519619751861333
- License:
- Abstract: Model-based reinforcement learning (RL) offers a solution to the data inefficiency that plagues most model-free RL algorithms. However, learning a robust world model often requires complex and deep architectures, which are computationally expensive and challenging to train. Within the world model, sequence models play a critical role in accurate predictions, and various architectures have been explored, each with its own challenges. Currently, recurrent neural network (RNN)-based world models struggle with vanishing gradients and capturing long-term dependencies. Transformers, on the other hand, suffer from the quadratic memory and computational complexity of self-attention mechanisms, scaling as $O(n^2)$, where $n$ is the sequence length. To address these challenges, we propose a state space model (SSM)-based world model, Drama, specifically leveraging Mamba, that achieves $O(n)$ memory and computational complexity while effectively capturing long-term dependencies and enabling efficient training with longer sequences. We also introduce a novel sampling method to mitigate the suboptimality caused by an incorrect world model in the early training stages. Combining these techniques, Drama achieves a normalised score on the Atari100k benchmark that is competitive with other state-of-the-art (SOTA) model-based RL algorithms, using only a 7 million-parameter world model. Drama is accessible and trainable on off-the-shelf hardware, such as a standard laptop. Our code is available at https://github.com/realwenlongwang/Drama.git.
- Abstract(参考訳): モデルベース強化学習(RL)は、ほとんどのモデルフリーなRLアルゴリズムを悩ませるデータ非効率性に対する解決策を提供する。
しかし、堅牢な世界モデルを学ぶには、しばしば複雑で深いアーキテクチャを必要とする。
世界モデルの中では、シーケンスモデルは正確な予測において重要な役割を果たす。
現在、リカレントニューラルネットワーク(RNN)ベースのワールドモデルは、グラデーションの消滅と長期的な依存関係のキャプチャに苦労している。
一方、トランスフォーマーは自己保持機構の二次記憶と計算の複雑さに悩まされ、$O(n^2)$としてスケールする。
これらの課題に対処するため、我々は、Mambaを特に活用した状態空間モデルDramaを提案し、メモリと計算の複雑さを$O(n)で実現し、長期間の依存関係を効果的にキャプチャし、より長いシーケンスで効率的なトレーニングを可能にする。
また, 早期のトレーニングにおいて, 誤った世界モデルによって引き起こされる準最適性を緩和する新しいサンプリング手法を提案する。
これらのテクニックを組み合わせることで、Dramaは700万パラメータの世界モデルのみを使用して、他の最先端(SOTA)モデルベースのRLアルゴリズムと競合するAtari100kベンチマークの正規化スコアを達成する。
ドラマは、標準のラップトップのような市販のハードウェアでアクセス可能で、トレーニングできる。
私たちのコードはhttps://github.com/realwenlongwang/Drama.git.comで利用可能です。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Learning to Walk from Three Minutes of Real-World Data with Semi-structured Dynamics Models [9.318262213262866]
コンタクトリッチシステムのための半構造化力学モデルを学習するための新しいフレームワークを提案する。
我々は,従来の手法よりもはるかに少ないデータで高精度な長距離予測を行う。
実世界のUnitree Go1四足歩行ロボットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-11T18:11:21Z) - Beyond Closure Models: Learning Chaotic-Systems via Physics-Informed Neural Operators [78.64101336150419]
カオスシステムの長期的挙動を予測することは、気候モデリングなどの様々な応用に不可欠である。
このような完全解法シミュレーションに対する別のアプローチは、粗いグリッドを使用して、時間テキストモデルによってエラーを修正することである。
この制限を克服する物理インフォームド・ニューラル演算子(PINO)を用いたエンド・ツー・エンドの学習手法を提案する。
論文 参考訳(メタデータ) (2024-08-09T17:05:45Z) - Efficient World Models with Context-Aware Tokenization [22.84676306124071]
$Delta$-IRISは、時間ステップ間のデルタをエンコードする離散オートエンコーダで構成されるワールドモデルアーキテクチャを備えた新しいエージェントである。
Crafterのベンチマークでは、$Delta$-IRISは、複数のフレーム予算で新しい最先端の技術を設定します。
論文 参考訳(メタデータ) (2024-06-27T16:54:12Z) - Locality Sensitive Sparse Encoding for Learning World Models Online [29.124825481348285]
Follow-The-Leader世界モデルはモデルに基づく強化学習に望ましい。
FTLモデルは、FTLを達成するために、すべての相互作用ステップで蓄積されたデータを再学習する必要がある。
我々の世界モデルは、リプレイで訓練されたディープワールドモデルの性能に匹敵するか、適合するかのどちらかで、1パスの軌跡データを使ってオンラインで学習した。
論文 参考訳(メタデータ) (2024-01-23T19:00:02Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Multi-timestep models for Model-based Reinforcement Learning [10.940666275830052]
モデルベース強化学習(MBRL)では、ほとんどのアルゴリズムはデータに基づいて学習した1ステップのダイナミックスモデルからの軌道のシミュレーションに依存している。
我々は、マルチステップの目標を用いてワンステップモデルをトレーニングすることでこの問題に対処する。
指数関数的に減衰する重みは、長い水平R2スコアを著しく改善するモデルに繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-09T12:42:39Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。