論文の概要: MemMamba: Rethinking Memory Patterns in State Space Model
- arxiv url: http://arxiv.org/abs/2510.03279v1
- Date: Sun, 28 Sep 2025 14:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.642699
- Title: MemMamba: Rethinking Memory Patterns in State Space Model
- Title(参考訳): MemMamba: ステートスペースモデルにおけるメモリパターンの再考
- Authors: Youjin Wang, Yangjingyi Chen, Jiahao Yan, Jiaxuan Lu, Xiao Sun,
- Abstract要約: マンバのような選択的状態空間モデルは O(n) 時間と O(1) 繰り返しの推論で高い効率性を示すが、その長距離メモリは指数関数的に崩壊する。
長文読解時の塩分情報の蒸留・保存方法に着想を得て,MemMambaを提案する。
MemMambaは、長期間のベンチマークで既存のMambaとTransformerよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 6.537535831000493
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the explosive growth of data, long-sequence modeling has become increasingly important in tasks such as natural language processing and bioinformatics. However, existing methods face inherent trade-offs between efficiency and memory. Recurrent neural networks suffer from gradient vanishing and explosion, making them hard to scale. Transformers can model global dependencies but are constrained by quadratic complexity. Recently, selective state-space models such as Mamba have demonstrated high efficiency with O(n) time and O(1) recurrent inference, yet their long-range memory decays exponentially. In this work, we conduct mathematical derivations and information-theoretic analysis to systematically uncover the memory decay mechanism of Mamba, answering a fundamental question: what is the nature of Mamba's long-range memory and how does it retain information? To quantify key information loss, we further introduce horizontal-vertical memory fidelity metrics that capture degradation both within and across layers. Inspired by how humans distill and retain salient information when reading long documents, we propose MemMamba, a novel architectural framework that integrates state summarization mechanism together with cross-layer and cross-token attention, which alleviates long-range forgetting while preserving linear complexity. MemMamba achieves significant improvements over existing Mamba variants and Transformers on long-sequence benchmarks such as PG19 and Passkey Retrieval, while delivering a 48% speedup in inference efficiency. Both theoretical analysis and empirical results demonstrate that MemMamba achieves a breakthrough in the complexity-memory trade-off, offering a new paradigm for ultra-long sequence modeling.
- Abstract(参考訳): データの爆発的な成長に伴い、自然言語処理やバイオインフォマティクスといったタスクにおいて、長いシーケンスモデリングがますます重要になっている。
しかし、既存の手法は効率とメモリのトレードオフに直面する。
リカレントニューラルネットワークは勾配の消失と爆発に悩まされ、スケールが困難になる。
トランスフォーマーはグローバルな依存関係をモデル化できるが、二次的な複雑さによって制約される。
近年、Mambaのような選択的な状態空間モデルは、O(n)時間とO(1)繰り返しの推論で高い効率を示すが、その長距離メモリは指数関数的に崩壊する。
本研究では,マンバの記憶崩壊機構を体系的に解明するために,数学的導出と情報理論解析を行い,マンバの長期記憶の性質と,どのように情報を保持するのかという根本的な疑問に答える。
さらに,重要な情報損失を定量化するために,層内および層間における劣化を捉える水平垂直メモリ忠実度指標を導入する。
長い文書を読み取る際に、人間が健全な情報を蒸留し、保持する方法に着想を得たMemMambaを提案する。これは、状態の要約機構をクロスレイヤーとクロストーケントな注意とともに統合し、線形複雑性を保ちながら長距離の忘れを緩和する新しいアーキテクチャフレームワークである。
MemMambaはPG19やPasskey Retrievalのようなロングシーケンスのベンチマークで既存のMambaとTransformerよりも大幅に改善され、推論効率は48%向上した。
理論的解析と経験的結果の両方で、MemMambaは、超長期シーケンスモデリングの新しいパラダイムを提供しながら、複雑性メモリトレードオフの突破口となることを証明している。
関連論文リスト
- ResFormer: All-Time Reservoir Memory for Long Sequence Classification [4.298381633106637]
シーケンス分類は、感情分析、意図検出、トピック分類といったタスクにおける言語パターンの理解と分類に欠かせない。
トランスフォーマーベースのモデルは、最先端のパフォーマンスを達成しているにもかかわらず、2次時間とメモリの複雑さのために固有の制限がある。
提案するResFormerは,カスケード手法を用いて,コンテキスト長を効率的にモデル化するニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2025-09-28T21:20:49Z) - BrainMT: A Hybrid Mamba-Transformer Architecture for Modeling Long-Range Dependencies in Functional MRI Data [0.09363323206192666]
近年のディープラーニングの進歩により、機能的磁気共鳴画像(fMRI)脳の体積から直接表現型測定を予測できるようになった。
本稿では,fMRIデータの長距離時間特性を効率的に学習し,統合するための新しいハイブリッドフレームワークBrainMTを紹介する。
筆者らのフレームワークは,(1)時間優先走査機構を備えた双方向マンバブロックを用いて,時間的に効率よくグローバルな時間的相互作用をキャプチャし,(2)グローバルな空間的関係をモデル化するための自己認識を利用したトランスフォーマーブロックの2段階で動作する。
論文 参考訳(メタデータ) (2025-06-27T19:20:41Z) - Emergence of Primacy and Recency Effect in Mamba: A Mechanistic Point of View [16.8179962093575]
予備効果と回帰効果を行動ツールとして用いた状態空間言語モデルの記憶について検討し、時間とともに情報がどのように保持され忘れられているかを明らかにする。
構造的リコールタスクをMambaアーキテクチャに適用し、入力シーケンスの開始と終了における強い性能を示す、一貫したU字型精度プロファイルを観察する。
論文 参考訳(メタデータ) (2025-06-18T06:02:02Z) - Non-Markovianity and memory enhancement in Quantum Reservoir Computing [0.8437187555622164]
非マルコフ力学は制限を克服し、拡張メモリ保持を可能にする。
我々はマルコフから非マルコフ進化への制御された遷移を可能にする埋め込みアプローチを導入する。
本研究では,量子機械学習アーキテクチャにおけるメモリ向上のための重要なリソースとして,量子非マルコビアン性(quantum non-Markovianity)を確立した。
論文 参考訳(メタデータ) (2025-05-05T09:17:08Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。