論文の概要: An Empirical Study of Mamba-based Language Models
- arxiv url: http://arxiv.org/abs/2406.07887v1
- Date: Wed, 12 Jun 2024 05:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:15:17.223840
- Title: An Empirical Study of Mamba-based Language Models
- Title(参考訳): マンバに基づく言語モデルに関する実証的研究
- Authors: Roger Waleffe, Wonmin Byeon, Duncan Riach, Brandon Norick, Vijay Korthikanti, Tri Dao, Albert Gu, Ali Hatamizadeh, Sudhakar Singh, Deepak Narayanan, Garvit Kulshreshtha, Vartika Singh, Jared Casper, Jan Kautz, Mohammad Shoeybi, Bryan Catanzaro,
- Abstract要約: Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
- 参考スコア(独自算出の注目度): 69.74383762508805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selective state-space models (SSMs) like Mamba overcome some of the shortcomings of Transformers, such as quadratic computational complexity with sequence length and large inference-time memory requirements from the key-value cache. Moreover, recent studies have shown that SSMs can match or exceed the language modeling capabilities of Transformers, making them an attractive alternative. In a controlled setting (e.g., same data), however, studies so far have only presented small scale experiments comparing SSMs to Transformers. To understand the strengths and weaknesses of these architectures at larger scales, we present a direct comparison between 8B-parameter Mamba, Mamba-2, and Transformer models trained on the same datasets of up to 3.5T tokens. We also compare these models to a hybrid architecture consisting of 43% Mamba-2, 7% attention, and 50% MLP layers (Mamba-2-Hybrid). Using a diverse set of tasks, we answer the question of whether Mamba models can match Transformers at larger training budgets. Our results show that while pure SSMs match or exceed Transformers on many tasks, they lag behind Transformers on tasks which require strong copying or in-context learning abilities (e.g., 5-shot MMLU, Phonebook) or long-context reasoning. In contrast, we find that the 8B Mamba-2-Hybrid exceeds the 8B Transformer on all 12 standard tasks we evaluated (+2.65 points on average) and is predicted to be up to 8x faster when generating tokens at inference time. To validate long-context capabilities, we provide additional experiments evaluating variants of the Mamba-2-Hybrid and Transformer extended to support 16K, 32K, and 128K sequences. On an additional 23 long-context tasks, the hybrid model continues to closely match or exceed the Transformer on average. To enable further study, we release the checkpoints as well as the code used to train our models as part of NVIDIA's Megatron-LM project.
- Abstract(参考訳): Mambaのような選択的な状態空間モデル(SSM)は、シーケンス長の2次計算複雑性やキー値キャッシュからの大規模な推論時間メモリ要求といったトランスフォーマーの欠点を克服する。
さらに、近年の研究では、SSMがトランスフォーマーの言語モデリング能力に適合または超えることが示されており、魅力的な代替手段となっている。
しかし、制御された設定(例えば、同じデータ)では、これまでSSMとトランスフォーマーを比較する小さな実験しか行っていない。
大規模でこれらのアーキテクチャの長所と短所を理解するため,最大3.5Tトークンのデータセットでトレーニングされた8BパラメータMamba,Mamba-2,Transformerモデルを直接比較した。
また,これらのモデルを,43%のMamba-2,7%の注目,50%のMLP層(Mamba-2-Hybrid)からなるハイブリッドアーキテクチャと比較した。
多様なタスクセットを使用することで、MambaモデルがTransformerとより大きなトレーニング予算で一致できるかという疑問に答える。
その結果、多くのタスクにおいて、純粋なSSMはTransformerにマッチしたり、超えたりするが、強力なコピーやテキスト内学習能力(例えば、5-shot MMLU、Phonebook)や長文推論を必要とするタスクではTransformerより遅れていることがわかった。
対照的に、8B Mamba-2-Hybridは、評価した12の標準タスク(平均で2.65ポイント)の8B変換器を超え、推論時にトークンを生成する場合、最大8倍高速であると予測されている。
16K,32K,128Kシーケンスをサポートするために拡張されたMamba-2-HybridおよびTransformerの変種を評価する追加実験を行った。
さらに23の長いコンテキストタスクでは、ハイブリッドモデルは平均的にTransformerと密に一致または超え続けている。
さらなる研究を可能にするため、NVIDIAのMegatron-LMプロジェクトの一環として、チェックポイントとモデルをトレーニングするためのコードをリリースしています。
関連論文リスト
- Mamba State-Space Models Can Be Strong Downstream Learners [1.6385815610837167]
マンバ状態空間モデル(SSM)は、最近様々なタスクにおいて最先端(SLLM)を上回っている。
混合精度(MPFT)と微細チューニング(PEFT)は低評価である。
我々は,MPFTとPEFTを組み合わせることで,最大で毎秒215倍,メモリあたり65.5%のトークンを削減できることを示した。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [31.985243136674146]
Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。
我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
論文 参考訳(メタデータ) (2024-05-31T17:50:01Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - MoE-Mamba: Efficient Selective State Space Models with Mixture of
Experts [4.293771840782942]
状態空間モデル(SSM)は、シーケンシャルモデリングの分野において真剣な競争者となっている。
MoEは、最近の最先端のオープンモデルを含むトランスフォーマーベースの大規模言語モデルを大幅に改善した。
スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。
論文 参考訳(メタデータ) (2024-01-08T18:35:07Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。