論文の概要: Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.02013v2
- Date: Wed, 11 Sep 2024 10:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 20:57:55.869636
- Title: Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning
- Title(参考訳): 意思決定者としてのMamba:オフライン強化学習におけるマルチスケールシーケンスモデリングの探索
- Authors: Jiahang Cao, Qiang Zhang, Ziqing Wang, Jingkai Sun, Jiaxu Wang, Hao Cheng, Yecheng Shao, Wen Zhao, Gang Han, Yijie Guo, Renjing Xu,
- Abstract要約: 我々はMamba Decision Maker (MambaDM) という新しいアクション予測手法を提案する。
MambaDMは、マルチスケール依存関係の効率的なモデリングのため、シーケンスモデリングのパラダイムの有望な代替品として期待されている。
本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
- 参考スコア(独自算出の注目度): 16.23977055134524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential modeling has demonstrated remarkable capabilities in offline reinforcement learning (RL), with Decision Transformer (DT) being one of the most notable representatives, achieving significant success. However, RL trajectories possess unique properties to be distinguished from the conventional sequence (e.g., text or audio): (1) local correlation, where the next states in RL are theoretically determined solely by current states and actions based on the Markov Decision Process (MDP), and (2) global correlation, where each step's features are related to long-term historical information due to the time-continuous nature of trajectories. In this paper, we propose a novel action sequence predictor, named Mamba Decision Maker (MambaDM), where Mamba is expected to be a promising alternative for sequence modeling paradigms, owing to its efficient modeling of multi-scale dependencies. In particular, we introduce a novel mixer module that proficiently extracts and integrates both global and local features of the input sequence, effectively capturing interrelationships in RL datasets. Extensive experiments demonstrate that MambaDM achieves state-of-the-art performance in Atari and OpenAI Gym datasets. Furthermore, we empirically investigate the scaling laws of MambaDM, finding that increasing model size does not bring performance improvement, but scaling the dataset amount by 2x for MambaDM can obtain up to 33.7% score improvement on Atari dataset. This paper delves into the sequence modeling capabilities of MambaDM in the RL domain, paving the way for future advancements in robust and efficient decision-making systems.
- Abstract(参考訳): 逐次モデリングはオフライン強化学習(RL)において顕著な能力を示しており、決定変換器(DT)は最も顕著な代表者の一人であり、大きな成功を収めている。
しかしながら、RLトラジェクトリは、従来のシーケンス(例えば、テキストや音声)と区別される独自の特性を持っている: 1)RLの次の状態が、マルコフ決定過程(MDP)に基づく現在の状態と行動のみによって理論的に決定される局所的相関、(2)グローバル的相関、そして、各ステップの特徴が、トラジェクトリの時間的連続性に起因する長期的な歴史的情報に関連付けられている。
本稿では,Mamba Decision Maker (MambaDM) と呼ばれる新しいアクションシーケンス予測器を提案する。
特に,入力シーケンスのグローバルな特徴とローカルな特徴を巧みに抽出し,統合する新しいミキサーモジュールを導入し,RLデータセットの相互関係を効果的に捉える。
大規模な実験により、MambaDMはAtariとOpenAI Gymデータセットで最先端のパフォーマンスを達成した。
さらに,MambaDMのスケーリング法則を実証的に検討し,モデルサイズの増加は性能改善をもたらすものではないが,MambaDMのデータセット量を2倍に拡張することで,Atariデータセットのスコア改善率を最大33.7%向上させることができることを示した。
本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
関連論文リスト
- Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。
また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - MambaLRP: Explaining Selective State Space Sequence Models [18.133138020777295]
マンバモデルは線形時間で長い列の効率的な処理を可能にする。
これらのモデルは、言語モデリングのような広範囲のアプリケーションで急速に採用されている。
現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。
我々は、より安定かつ信頼性の高い関連伝播を保証するLRPフレームワーク内での新しいアルゴリズムであるMambaLRPを提案する。
論文 参考訳(メタデータ) (2024-06-11T12:15:47Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling [13.253878928833688]
テキスト内強化学習のための決定マンバ・ヒブリッド(DM-H)を提案する。
DM-Hは、マンバモデルを介して長期記憶から高価値のサブゴールを生成する。
長期タスクにおけるDM-Hのオンラインテストは、トランスフォーマーベースのベースラインよりも28$times$speedである。
論文 参考訳(メタデータ) (2024-05-31T10:41:03Z) - Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting [5.166854384000439]
長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。
近年,Mamba という新しい状態空間モデル (SSM) が提案されている。
入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaは予測性能と計算効率のバランスをとる大きな可能性を示した。
論文 参考訳(メタデータ) (2024-04-24T09:45:48Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - Is Mamba Effective for Time Series Forecasting? [30.85990093479062]
時系列予測のための,S-Mamba(S-Mamba)というマンバモデルを提案する。
具体的には,各変数の時間点を線形層を介して自律的にトークン化する。
13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。
論文 参考訳(メタデータ) (2024-03-17T08:50:44Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。