論文の概要: LongMamba: Enhancing Mamba's Long Context Capabilities via Training-Free Receptive Field Enlargement
- arxiv url: http://arxiv.org/abs/2504.16053v1
- Date: Tue, 22 Apr 2025 17:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:02:12.011065
- Title: LongMamba: Enhancing Mamba's Long Context Capabilities via Training-Free Receptive Field Enlargement
- Title(参考訳): LongMamba:MambaのLong Context能力の強化
- Authors: Zhifan Ye, Kejing Xia, Yonggan Fu, Xin Dong, Jihoon Hong, Xiangchi Yuan, Shizhe Diao, Jan Kautz, Pavlo Molchanov, Yingyan Celine Lin,
- Abstract要約: 状態空間モデル(SSM)は、言語モデリングのためのTransformerモデルの効率的な代替として登場した。
近年の研究では、MambaモデルのようなSSMは、長文理解タスクのトランスフォーマーに比べて性能が低いことが示されている。
本研究では,マンバモデルの長文処理能力を大幅に向上させるトレーニングフリー手法であるLongMambaを提案する。
- 参考スコア(独自算出の注目度): 54.518582813434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State space models (SSMs) have emerged as an efficient alternative to Transformer models for language modeling, offering linear computational complexity and constant memory usage as context length increases. However, despite their efficiency in handling long contexts, recent studies have shown that SSMs, such as Mamba models, generally underperform compared to Transformers in long-context understanding tasks. To address this significant shortfall and achieve both efficient and accurate long-context understanding, we propose LongMamba, a training-free technique that significantly enhances the long-context capabilities of Mamba models. LongMamba builds on our discovery that the hidden channels in Mamba can be categorized into local and global channels based on their receptive field lengths, with global channels primarily responsible for long-context capability. These global channels can become the key bottleneck as the input context lengthens. Specifically, when input lengths largely exceed the training sequence length, global channels exhibit limitations in adaptively extend their receptive fields, leading to Mamba's poor long-context performance. The key idea of LongMamba is to mitigate the hidden state memory decay in these global channels by preventing the accumulation of unimportant tokens in their memory. This is achieved by first identifying critical tokens in the global channels and then applying token filtering to accumulate only those critical tokens. Through extensive benchmarking across synthetic and real-world long-context scenarios, LongMamba sets a new standard for Mamba's long-context performance, significantly extending its operational range without requiring additional training. Our code is available at https://github.com/GATECH-EIC/LongMamba.
- Abstract(参考訳): 状態空間モデル(SSM)は、文脈長が増加するにつれて線形計算の複雑さと一定メモリ使用量を提供する言語モデリングのためのトランスフォーマーモデルの効率的な代替として登場した。
しかしながら、長い文脈での処理の効率にもかかわらず、最近の研究では、マンバモデルのようなSSMは、長文理解タスクにおける変換器に比べて、一般的には性能が劣っていることが示されている。
この重要な欠点に対処し、効率的かつ正確な長文理解を実現するために、Mambaモデルの長文能力を大幅に向上させるトレーニングフリー手法であるLongMambaを提案する。
LongMambaは、Mambaに隠されたチャネルを、受容的なフィールド長に基づいてローカルチャネルとグローバルチャネルに分類できるという発見に基づいています。
これらのグローバルチャネルは、入力コンテキストが長くなるにつれて、重要なボトルネックになる可能性がある。
具体的には、入力長がトレーニングシーケンス長を大幅に超える場合、グローバルチャネルは、その受容領域を適応的に拡張する制限を示し、マンバの長文パフォーマンスは低くなる。
LongMambaのキーとなる考え方は、これらのグローバルチャネルにおける隠された状態メモリの崩壊を軽減し、そのメモリに重要でないトークンが蓄積されることを防ぐことである。
これは、まずグローバルチャネル内のクリティカルトークンを特定し、次にトークンフィルタリングを適用して、クリティカルトークンのみを蓄積することで実現される。
合成および実世界のロングコンテキストシナリオにわたる広範なベンチマークを通じて、ロングマンバはマンバのロングコンテキストパフォーマンスの新しい標準を設定し、追加のトレーニングを必要とせずに運用範囲を大幅に拡張した。
私たちのコードはhttps://github.com/GATECH-EIC/LongMamba.comで公開されています。
関連論文リスト
- Random Long-Context Access for Mamba via Hardware-aligned Hierarchical Sparse Attention [43.3704626107852]
textbfHierarchical textbfSparse textbfAttention (HSA)を提案する。
HSAは入力をチャンクに分割し、トップ$k$チャンクを選択し、階層的に情報を集約する。
HSAとMambaを組み合わせることで、RAMbaを導入し、64万のコンテキストにわたるパスキー検索の完全精度を実現する。
論文 参考訳(メタデータ) (2025-04-23T15:15:06Z) - Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation [0.0]
MambaDepthは自己監督深度推定に適した多目的ネットワークである。
MambaDepthは、自己教師付き深さ推定におけるU-Netの有効性と、Mambaの高度な能力を組み合わせる。
MambaDepthは、Make3DやCityscapesといった他のデータセットよりも優れた一般化能力を示している。
論文 参考訳(メタデータ) (2024-06-06T22:08:48Z) - Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting [5.166854384000439]
長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。
近年,Mamba という新しい状態空間モデル (SSM) が提案されている。
入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaは予測性能と計算効率のバランスをとる大きな可能性を示した。
論文 参考訳(メタデータ) (2024-04-24T09:45:48Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。