論文の概要: Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling
- arxiv url: http://arxiv.org/abs/2406.00079v1
- Date: Fri, 31 May 2024 10:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:43:16.486375
- Title: Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling
- Title(参考訳): 決定マンバ:ハイブリッド選択シーケンスモデリングによる強化学習
- Authors: Sili Huang, Jifeng Hu, Zhejian Yang, Liwei Yang, Tao Luo, Hechang Chen, Lichao Sun, Bo Yang,
- Abstract要約: テキスト内強化学習のための決定マンバ・ヒブリッド(DM-H)を提案する。
DM-Hは、マンバモデルを介して長期記憶から高価値のサブゴールを生成する。
長期タスクにおけるDM-Hのオンラインテストは、トランスフォーマーベースのベースラインよりも28$times$speedである。
- 参考スコア(独自算出の注目度): 13.253878928833688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown the remarkable superiority of transformer models in reinforcement learning (RL), where the decision-making problem is formulated as sequential generation. Transformer-based agents could emerge with self-improvement in online environments by providing task contexts, such as multiple trajectories, called in-context RL. However, due to the quadratic computation complexity of attention in transformers, current in-context RL methods suffer from huge computational costs as the task horizon increases. In contrast, the Mamba model is renowned for its efficient ability to process long-term dependencies, which provides an opportunity for in-context RL to solve tasks that require long-term memory. To this end, we first implement Decision Mamba (DM) by replacing the backbone of Decision Transformer (DT). Then, we propose a Decision Mamba-Hybrid (DM-H) with the merits of transformers and Mamba in high-quality prediction and long-term memory. Specifically, DM-H first generates high-value sub-goals from long-term memory through the Mamba model. Then, we use sub-goals to prompt the transformer, establishing high-quality predictions. Experimental results demonstrate that DM-H achieves state-of-the-art in long and short-term tasks, such as D4RL, Grid World, and Tmaze benchmarks. Regarding efficiency, the online testing of DM-H in the long-term task is 28$\times$ times faster than the transformer-based baselines.
- Abstract(参考訳): 近年の研究では、決定問題を逐次生成として定式化する強化学習(RL)において、変圧器モデルの顕著な優位性を示している。
トランスフォーマーベースのエージェントは、インコンテキストRLと呼ばれる複数のトラジェクトリのようなタスクコンテキストを提供することで、オンライン環境で自己改善を行うことができる。
しかし、変圧器における注意の2次計算の複雑さのため、現在のコンテキスト内RL法はタスクの水平線が増加するにつれて計算コストの増大に悩まされる。
対照的に、Mambaモデルは、長期依存を処理する効率的な能力で知られており、長期記憶を必要とするタスクを解決するためのコンテキスト内RLを提供する。
この目的のために、まずDecision Mamba (DM) を実装し、Decision Transformer (DT) のバックボーンを置き換える。
そこで我々は,高品質な予測と長期記憶において,トランスフォーマーとマンバの利点を活かした決定型マンバ・ヒブリッド(DM-H)を提案する。
具体的には、DM-Hはまず、Mambaモデルを通して長期記憶から高値のサブゴールを生成する。
そして、サブゴールを用いてトランスフォーマーを誘導し、高品質な予測を確立する。
実験の結果,DM-HはD4RL,Grid World,Tmazeベンチマークなど,長期的および短期的なタスクにおいて最先端の処理を実現することがわかった。
効率性に関しては、長期的なタスクにおけるDM-Hのオンラインテストは、トランスフォーマーベースのベースラインの28$\times$倍高速である。
関連論文リスト
- The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba [0.0]
状態空間モデル(SSM)を用いたシーケンスモデリングは、様々なタスクにおけるトランスフォーマーよりもパフォーマンスが優れていることを示した。
しかし、最先端のSSMであるMambaに基づく決定モデルは、拡張された決定変換器よりも優れた性能を達成できなかった。
本稿では,DMM(Decision MetaMamba)を提案する。
論文 参考訳(メタデータ) (2024-08-20T03:35:28Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning [16.23977055134524]
我々はMamba Decision Maker (MambaDM) という新しいアクション予測手法を提案する。
MambaDMは、マルチスケール依存関係の効率的なモデリングのため、シーケンスモデリングのパラダイムの有望な代替品として期待されている。
本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
論文 参考訳(メタデータ) (2024-06-04T06:49:18Z) - Is Mamba Compatible with Trajectory Optimization in Offline Reinforcement Learning? [32.33214392196923]
変圧器を用いた軌道最適化手法はオフライン強化学習(オフラインRL)において例外的な性能を示した。
しかし、パラメータのサイズがかなり大きく、スケーラビリティが制限されているため、特にシーケンシャルな意思決定シナリオでは問題が発生します。
有望な新しい線形時間シーケンスモデルであるMambaは、トランスフォーマーと同等のパフォーマンスを提供すると同時に、長いシーケンスのパラメータをかなり少なく提供する。
論文 参考訳(メタデータ) (2024-05-20T15:05:47Z) - Decision Mamba Architectures [1.4255659581428335]
決定マンバアーキテクチャは、様々なタスク領域でトランスフォーマーより優れていることが示されている。
決定マンバ(DM)と階層決定マンバ(HDM)の2つの新しい手法を紹介する。
我々は,ほとんどのタスクにおいて,TransformerモデルよりもMambaモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-13T17:18:08Z) - Is Mamba Effective for Time Series Forecasting? [30.85990093479062]
時系列予測のための,S-Mamba(S-Mamba)というマンバモデルを提案する。
具体的には,各変数の時間点を線形層を介して自律的にトークン化する。
13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。
論文 参考訳(メタデータ) (2024-03-17T08:50:44Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。