論文の概要: Decision MetaMamba: Enhancing Selective SSM in Offline RL with Heterogeneous Sequence Mixing
- arxiv url: http://arxiv.org/abs/2602.19805v2
- Date: Thu, 26 Feb 2026 06:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 14:31:23.827821
- Title: Decision MetaMamba: Enhancing Selective SSM in Offline RL with Heterogeneous Sequence Mixing
- Title(参考訳): 決定メタマンバ:不均一配列混合によるオフラインRL選択SSMの向上
- Authors: Wall Kim, Chaeyoung Song, Hanul Kim,
- Abstract要約: マンバベースのモデルはオフラインのRLで多くの注目を集めている。
我々はDMM(Decision MetaMamba)と呼ばれるシンプルで効果的な構造を提案する。
マンバより前に全てのチャンネルを同時に考慮したシーケンスミキシングを行うことにより、DMMは選択的走査と残差ゲーティングによる情報損失を防止する。
- 参考スコア(独自算出の注目度): 3.5939555573102857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mamba-based models have drawn much attention in offline RL. However, their selective mechanism often detrimental when key steps in RL sequences are omitted. To address these issues, we propose a simple yet effective structure, called Decision MetaMamba (DMM), which replaces Mamba's token mixer with a dense layer-based sequence mixer and modifies positional structure to preserve local information. By performing sequence mixing that considers all channels simultaneously before Mamba, DMM prevents information loss due to selective scanning and residual gating. Extensive experiments demonstrate that our DMM delivers the state-of-the-art performance across diverse RL tasks. Furthermore, DMM achieves these results with a compact parameter footprint, demonstrating strong potential for real-world applications.
- Abstract(参考訳): マンバベースのモデルはオフラインのRLで多くの注目を集めている。
しかし、その選択的な機構は、RL配列のキーステップが省略されるときにしばしば有害である。
これらの問題に対処するため,DMM (Decision MetaMamba) と呼ばれる単純な構造を提案し,Mamba のトークンミキサを高密度層型シークエンスミキサに置き換え,位置構造を変更して局所情報を保存する。
マンバより前に全てのチャンネルを同時に考慮したシーケンスミキシングを行うことにより、DMMは選択的走査と残差ゲーティングによる情報損失を防止する。
大規模な実験により、我々のDMMは様々なRLタスクにまたがって最先端のパフォーマンスを提供することを示した。
さらに、DMMはパラメータフットプリントをコンパクトにすることでこれらの結果を達成し、現実世界のアプリケーションに強い可能性を示す。
関連論文リスト
- Achilles' Heel of Mamba: Essential difficulties of the Mamba architecture demonstrated by synthetic data [52.07689534063587]
ステートスペースモデル(SSM)は、アテンションメカニズムに代わる有望な代替手段として登場した。
本研究では,マンバ固有の制約を明らかにするために,慎重に設計された合成タスクを用いる。
論文 参考訳(メタデータ) (2025-09-22T08:38:55Z) - Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。
Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。
本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文 参考訳(メタデータ) (2025-06-22T19:26:55Z) - Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [75.14823970163685]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。
MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。
視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文 参考訳(メタデータ) (2025-05-20T03:59:05Z) - Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba [0.0]
状態空間モデル(SSM)を用いたシーケンスモデリングは、様々なタスクにおけるトランスフォーマーよりもパフォーマンスが優れていることを示した。
しかし、最先端のSSMであるMambaに基づく決定モデルは、拡張された決定変換器よりも優れた性能を達成できなかった。
本稿では,DMM(Decision MetaMamba)を提案する。
論文 参考訳(メタデータ) (2024-08-20T03:35:28Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Q-GADMM: Quantized Group ADMM for Communication Efficient Decentralized Machine Learning [66.18202188565922]
我々はQGADMM(QGADMM)という通信効率の高い分散機械学習(ML)アルゴリズムを提案する。
我々は,凸関数に対するQGADMMの収束性を証明しつつ,モデル化レベルとその確率を適応的に調整する新しい量子化法を開発した。
論文 参考訳(メタデータ) (2019-10-23T10:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。