論文の概要: Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
- arxiv url: http://arxiv.org/abs/2406.07522v2
- Date: Tue, 03 Dec 2024 08:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:39:48.771265
- Title: Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
- Title(参考訳): Samba: 効率的な文脈言語モデリングのためのシンプルなハイブリッドな状態空間モデル
- Authors: Liliang Ren, Yang Liu, Yadong Lu, Yelong Shen, Chen Liang, Weizhu Chen,
- Abstract要約: 選択状態空間モデル(SSM)であるMambaとSliding Window Attention(SWA)を組み合わせた単純なハイブリッドアーキテクチャであるSambaを提案する。
Sambaは特定のシーケンスを選択的にリカレントなシークレット状態に圧縮し、最近の記憶をアテンション機構で正確にリコールする能力を維持している。
私たちはSambaを3.8Bのパラメータに拡張し、3.2Tのトレーニングトークンを使用し、様々なベンチマークで最先端モデルよりも大幅に優れていることを示した。
- 参考スコア(独自算出の注目度): 70.94320930424331
- License:
- Abstract: Efficiently modeling sequences with infinite context length has long been a challenging problem. Previous approaches have either suffered from quadratic computational complexity or limited extrapolation ability in length generalization. In this work, we present Samba, a simple hybrid architecture that layer-wise combines Mamba, a selective State Space Model (SSM), with Sliding Window Attention (SWA). Samba selectively compresses a given sequence into recurrent hidden states while still maintaining the ability to precisely recall recent memories with the attention mechanism. We scale Samba up to 3.8B parameters with 3.2T training tokens and demonstrate that it significantly outperforms state-of-the-art models across a variety of benchmarks. Pretrained on sequences of 4K length, Samba shows improved perplexity in context lengths of up to 1M in zero-shot. When finetuned on 4K-length sequences, Samba efficiently extrapolates to a 256K context length with perfect memory recall on the Passkey Retrieval task, and exhibits superior retrieval extrapolation on the challenging Phonebook task compared to full-attention models. As a linear-time sequence model, Samba achieves a 3.73x higher throughput compared to Transformers with grouped-query attention for user prompts of 128K length, and a 3.64x speedup when generating 64K tokens with unlimited streaming. Our code for training on open source data is publicly available at https://github.com/microsoft/Samba.
- Abstract(参考訳): 文脈長が無限であるシーケンスを効果的にモデル化することは、長い間難しい問題であった。
以前のアプローチでは、長さの一般化において2次計算複雑性や限定外挿能力に悩まされていた。
本研究では,SambaとSliding Window Attention(SWA)を組み合わせた単純なハイブリッドアーキテクチャを提案する。
Sambaは特定のシーケンスを選択的にリカレントなシークレット状態に圧縮し、最近の記憶をアテンション機構で正確にリコールする能力を維持している。
私たちはSambaを3.8Bのパラメータに拡張し、3.2Tのトレーニングトークンを使用し、様々なベンチマークで最先端モデルよりも大幅に優れていることを示した。
Sambaは4K長のシーケンスに基づいて、ゼロショットで最大1Mまでのコンテキスト長のパープレキシティが改善された。
4Kの配列を微調整すると、SambaはPasskey Retrievalタスクで完全なメモリリコールで256Kのコンテキスト長に効率的に外挿し、フルアテンションモデルと比較して、挑戦するPhonebookタスクに対して優れた検索外挿を示す。
線形時間シーケンスモデルとして、Sambaはトランスフォーマーに比べて3.73倍のスループットを実現し、128Kのユーザプロンプトに対してグループ化されたクエリアテンションを持ち、無制限のストリーミングで64Kトークンを生成する場合の3.64倍のスピードアップを実現している。
オープンソースデータのトレーニングのためのコードはhttps://github.com/microsoft/Samba.comで公開されています。
関連論文リスト
- Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity [56.0251572416922]
状態空間モデル(SSM)は、シーケンシャルモデリングのためのトランスフォーマーの効率的な代替手段として登場した。
本稿では,Mambaブロックのモダリティ特異的パラメータ化により,モダリティを意識した疎結合を実現する新しいSSMアーキテクチャを提案する。
マルチモーダル事前学習環境におけるMixture-of-Mambaの評価を行った。
論文 参考訳(メタデータ) (2025-01-27T18:35:05Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - PackMamba: Efficient Processing of Variable-Length Sequences in Mamba training [13.926804198202582]
Mambaは、生成AIの分野で画期的なアーキテクチャとして登場し、長いシーケンスを扱うのに顕著な習熟度を示している。
Mambaの既存のトレーニングフレームワークは、可変長シーケンス入力による非効率性を示す。
可変長シーケンスを効率的に処理する高スループットなMambaであるPackMambaを提案する。
論文 参考訳(メタデータ) (2024-08-07T16:13:43Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series [2.4379295576598436]
我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。
SiMBAは既存のSSMよりも優れており、最先端の変換器と性能のギャップを埋めている。
論文 参考訳(メタデータ) (2024-03-22T17:22:56Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。