Fugu-MT 論文翻訳(概要): Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning

論文の概要: Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2406.02013v2
Date: Wed, 11 Sep 2024 10:48:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 20:57:55.869636
Title: Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning
Title（参考訳）: 意思決定者としてのMamba:オフライン強化学習におけるマルチスケールシーケンスモデリングの探索
Authors: Jiahang Cao, Qiang Zhang, Ziqing Wang, Jingkai Sun, Jiaxu Wang, Hao Cheng, Yecheng Shao, Wen Zhao, Gang Han, Yijie Guo, Renjing Xu,
Abstract要約: 我々はMamba Decision Maker (MambaDM) という新しいアクション予測手法を提案する。 MambaDMは、マルチスケール依存関係の効率的なモデリングのため、シーケンスモデリングのパラダイムの有望な代替品として期待されている。本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
参考スコア（独自算出の注目度）: 16.23977055134524
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sequential modeling has demonstrated remarkable capabilities in offline reinforcement learning (RL), with Decision Transformer (DT) being one of the most notable representatives, achieving significant success. However, RL trajectories possess unique properties to be distinguished from the conventional sequence (e.g., text or audio): (1) local correlation, where the next states in RL are theoretically determined solely by current states and actions based on the Markov Decision Process (MDP), and (2) global correlation, where each step's features are related to long-term historical information due to the time-continuous nature of trajectories. In this paper, we propose a novel action sequence predictor, named Mamba Decision Maker (MambaDM), where Mamba is expected to be a promising alternative for sequence modeling paradigms, owing to its efficient modeling of multi-scale dependencies. In particular, we introduce a novel mixer module that proficiently extracts and integrates both global and local features of the input sequence, effectively capturing interrelationships in RL datasets. Extensive experiments demonstrate that MambaDM achieves state-of-the-art performance in Atari and OpenAI Gym datasets. Furthermore, we empirically investigate the scaling laws of MambaDM, finding that increasing model size does not bring performance improvement, but scaling the dataset amount by 2x for MambaDM can obtain up to 33.7% score improvement on Atari dataset. This paper delves into the sequence modeling capabilities of MambaDM in the RL domain, paving the way for future advancements in robust and efficient decision-making systems.
Abstract（参考訳）: 逐次モデリングはオフライン強化学習(RL)において顕著な能力を示しており、決定変換器(DT)は最も顕著な代表者の一人であり、大きな成功を収めている。しかしながら、RLトラジェクトリは、従来のシーケンス(例えば、テキストや音声)と区別される独自の特性を持っている: 1)RLの次の状態が、マルコフ決定過程(MDP)に基づく現在の状態と行動のみによって理論的に決定される局所的相関、(2)グローバル的相関、そして、各ステップの特徴が、トラジェクトリの時間的連続性に起因する長期的な歴史的情報に関連付けられている。本稿では,Mamba Decision Maker (MambaDM) と呼ばれる新しいアクションシーケンス予測器を提案する。特に,入力シーケンスのグローバルな特徴とローカルな特徴を巧みに抽出し,統合する新しいミキサーモジュールを導入し,RLデータセットの相互関係を効果的に捉える。大規模な実験により、MambaDMはAtariとOpenAI Gymデータセットで最先端のパフォーマンスを達成した。さらに,MambaDMのスケーリング法則を実証的に検討し,モデルサイズの増加は性能改善をもたらすものではないが,MambaDMのデータセット量を2倍に拡張することで,Atariデータセットのスコア改善率を最大33.7%向上させることができることを示した。本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。

関連論文リスト

TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition [59.99922360648663]
TSkel-Mambaは、空間力学と時間力学の両方を効果的に捉えるハイブリッドトランスフォーマー-Mambaフレームワークである。 MTIモジュールはマルチスケールのCycle演算子を使用して、チャネル間の時間的相互作用をキャプチャする。
論文参考訳（メタデータ） (2025-12-12T11:55:16Z)
Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing [28.488986896516284]
RoMAは、大規模で多様なラベルのないデータを使用して、RSファンデーションモデルのスケーラブルな自己教師付き事前トレーニングを可能にするフレームワークである。 RoMAは、カスタマイズされた自動回帰学習戦略により、高解像度画像のスケーラビリティを向上させる。シーン分類、オブジェクト検出、セマンティックセグメンテーションタスクにわたる実験により、RoMAで事前訓練されたMambaモデルは、精度と計算効率の両方において、ViTベースのモデルよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-13T14:09:18Z)
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文参考訳（メタデータ） (2024-12-21T13:43:51Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文参考訳（メタデータ） (2024-08-28T02:47:27Z)
Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba [0.0]
状態空間モデル(SSM)を用いたシーケンスモデリングは、様々なタスクにおけるトランスフォーマーよりもパフォーマンスが優れていることを示した。しかし、最先端のSSMであるMambaに基づく決定モデルは、拡張された決定変換器よりも優れた性能を達成できなかった。本稿では,DMM(Decision MetaMamba)を提案する。
論文参考訳（メタデータ） (2024-08-20T03:35:28Z)
Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文参考訳（メタデータ） (2024-08-04T14:10:33Z)
DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。 Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文参考訳（メタデータ） (2024-08-01T08:22:47Z)
MambaLRP: Explaining Selective State Space Sequence Models [18.133138020777295]
選択状態空間列モデル(マンバモデルと呼ばれる)を用いた最近のシーケンスモデリング手法は、関心が高まりつつある。これらのモデルは、線形時間における長いシーケンスの効率的な処理を可能にし、言語モデリングのような広範囲のアプリケーションで急速に採用されている。現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。
論文参考訳（メタデータ） (2024-06-11T12:15:47Z)
Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文参考訳（メタデータ） (2024-06-08T10:12:00Z)
CMamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting [18.50360049235537]
ステートスペースモデルであるMambaは、堅牢なシーケンスと機能ミキシング機能を備えている。チャネル間の依存関係のキャプチャは、時系列予測のパフォーマンス向上に不可欠である。時系列予測に適した改良されたマンバ変種を導入する。
論文参考訳（メタデータ） (2024-06-08T01:32:44Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。