論文の概要: 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy
- arxiv url: http://arxiv.org/abs/2602.17363v1
- Date: Thu, 19 Feb 2026 13:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.046073
- Title: 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy
- Title(参考訳): 2Mamba2Furious: 複雑度が線形で精度が競合する
- Authors: Gabriel Mongaras, Eric C. Larson,
- Abstract要約: 線形アテンションは表現力が少なく、ソフトマックスアテンションに比べて精度が低下する傾向にある。
私たちはMamba-2を最も基本的で重要なコンポーネントに単純化し、どの特定の選択が最も正確かを評価する。
この単純化されたマンバ変種(Mamba-2S)から、Aマスクを改善し、隠れ状態の順序を向上し、2マンバと呼ぶ手法が軟マックスアテンションと同じくらい正確になる。
- 参考スコア(独自算出の注目度): 4.2766078451515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear attention transformers have become a strong alternative to softmax attention due to their efficiency. However, linear attention tends to be less expressive and results in reduced accuracy compared to softmax attention. To bridge the accuracy gap between softmax attention and linear attention, we manipulate Mamba-2, a very strong linear attention variant. We first simplify Mamba-2 down to its most fundamental and important components, evaluating which specific choices make it most accurate. From this simplified Mamba variant (Mamba-2S), we improve the A-mask and increase the order of the hidden state, resulting in a method, which we call 2Mamba, that is nearly as accurate as softmax attention, yet much more memory efficient for long context lengths. We also investigate elements to Mamba-2 that help surpass softmax attention accuracy. Code is provided for all our experiments
- Abstract(参考訳): 線形アテンショントランスは、その効率性からソフトマックスアテンションの強力な代替手段となっている。
しかし、線形注意は表現力が少なくなり、ソフトマックス注意に比べて精度が低下する傾向にある。
ソフトマックスアテンションとリニアアテンションの精度ギャップを埋めるために,非常に強いリニアアテンションであるMamba-2を操作する。
最初に、Mamba-2を最も基本的で重要なコンポーネントに単純化し、どの特定の選択が最も正確かを評価する。
この単純化されたMamba変種(Mamba-2S)から、Aマスクを改善し、隠れ状態の順序を向上し、2Mambaと呼ばれる2Mambaと呼ばれる手法が得られた。
また、ソフトマックスの注意精度を超えるのに役立つMamba-2の要素についても検討する。
コードは我々のすべての実験に提供されます
関連論文リスト
- Exploring the Limitations of Mamba in COPY and CoT Reasoning [9.024844892536327]
Mamba は,計算コストを大幅に削減しつつ,シーケンスモデリングにおける Transformer の性能にマッチすることを示す。
さらに,MambaがChain of Thought(CoT)タスクに取り組む能力について分析する。
以上の結果から,任意のDP問題を解くために,Mambaの総コストは標準変換器に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-10-04T13:31:24Z) - Snakes and Ladders: Two Steps Up for VideoMamba [10.954210339694841]
本稿では,自尊心とマンバの差異を理論的に分析する。
本稿では, VideoMamba を1.6-2.8%, 1.1-1.9% で上回る VideoMambaPro モデルを提案する。
我々の2つの解決策は、Vision Mambaモデルの最近の進歩であり、将来のモデルにさらなる改善をもたらす可能性が高い。
論文 参考訳(メタデータ) (2024-06-27T08:45:31Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。