論文の概要: Random Long-Context Access for Mamba via Hardware-aligned Hierarchical Sparse Attention
- arxiv url: http://arxiv.org/abs/2504.16795v1
- Date: Wed, 23 Apr 2025 15:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:38:54.465339
- Title: Random Long-Context Access for Mamba via Hardware-aligned Hierarchical Sparse Attention
- Title(参考訳): ハードウェアアラインな階層的スパースアテンションによるマンバのランダム長コンテキストアクセス
- Authors: Xiang Hu, Jiaqi Leng, Jun Zhao, Kewei Tu, Wei Wu,
- Abstract要約: textbfHierarchical textbfSparse textbfAttention (HSA)を提案する。
HSAは入力をチャンクに分割し、トップ$k$チャンクを選択し、階層的に情報を集約する。
HSAとMambaを組み合わせることで、RAMbaを導入し、64万のコンテキストにわたるパスキー検索の完全精度を実現する。
- 参考スコア(独自算出の注目度): 43.3704626107852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key advantage of Recurrent Neural Networks (RNNs) over Transformers is their linear computational and space complexity enables faster training and inference for long sequences. However, RNNs are fundamentally unable to randomly access historical context, and simply integrating attention mechanisms may undermine their efficiency advantages. To overcome this limitation, we propose \textbf{H}ierarchical \textbf{S}parse \textbf{A}ttention (HSA), a novel attention mechanism that enhances RNNs with long-range random access flexibility while preserving their merits in efficiency and length generalization. HSA divides inputs into chunks, selecting the top-$k$ chunks and hierarchically aggregates information. The core innovation lies in learning token-to-chunk relevance based on fine-grained token-level information inside each chunk. This approach enhances the precision of chunk selection across both in-domain and out-of-domain context lengths. To make HSA efficient, we further introduce a hardware-aligned kernel design. By combining HSA with Mamba, we introduce RAMba, which achieves perfect accuracy in passkey retrieval across 64 million contexts despite pre-training on only 4K-length contexts, and significant improvements on various downstream tasks, with nearly constant memory footprint. These results show RAMba's huge potential in long-context modeling.
- Abstract(参考訳): トランスフォーマーに対するリカレントニューラルネットワーク(RNN)の重要な利点は、線形計算と空間の複雑さにより、長いシーケンスの高速なトレーニングと推論が可能になることである。
しかし、RNNは歴史的文脈をランダムにアクセスすることができず、単に注意機構を統合するだけで効率を損なう可能性がある。
この制限を克服するために、長範囲のランダムアクセス柔軟性を持つRNNを効率と長さの一般化のメリットを保ちながら強化する新しいアテンション機構である、 \textbf{H}ierarchical \textbf{S}parse \textbf{A}ttention (HSA)を提案する。
HSAは入力をチャンクに分割し、トップ$k$チャンクを選択し、階層的に情報を集約する。
中心となるイノベーションは、各チャンク内のきめ細かいトークンレベル情報に基づいてトークンとチャンクの関連性を学ぶことだ。
このアプローチにより、ドメイン内およびドメイン外コンテキスト長の両方にわたるチャンク選択の精度が向上する。
HSAを効率的にするために、ハードウェア対応のカーネル設計を導入する。
HSAとMambaを組み合わせることで,4Kのコンテキストのみを事前学習しながら,64万コンテキストにわたるパスキー検索の完全精度を実現するRAMbaを導入し,メモリフットプリントをほぼ一定にすることで,下流タスクの大幅な改善を実現した。
これらの結果は,Long-context ModelingにおけるRAMbaの潜在能力を示している。
関連論文リスト
- FLAMES: A Hybrid Spiking-State Space Model for Adaptive Memory Retention in Event-Based Learning [16.60622265961373]
FLAMESは構造化状態空間力学とイベント駆動型計算を統合するハイブリッドフレームワークである。
ニューロモルフィックコンピューティングと構造化シーケンスモデリングをブリッジすることで、FLAMESはイベント駆動システムにおいてスケーラブルな長距離推論を可能にする。
論文 参考訳(メタデータ) (2025-04-02T00:08:19Z) - Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。
再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文 参考訳(メタデータ) (2024-12-16T14:23:31Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling [42.67141329779589]
Grouped Cross Attentionは、トレーニング前のコンテキスト長の1000倍に一般化することができる。
実験により,16Mコンテキスト長のパスキー検索において,GAAに基づくモデルがほぼ完全であることが示された。
論文 参考訳(メタデータ) (2024-10-02T15:18:34Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Landmark Attention: Random-Access Infinite Context Length for
Transformers [45.69864961773124]
ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。
本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。
提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2023-05-25T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。