論文の概要: The Mamba in the Llama: Distilling and Accelerating Hybrid Models
- arxiv url: http://arxiv.org/abs/2408.15237v2
- Date: Thu, 26 Dec 2024 05:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:23:15.976915
- Title: The Mamba in the Llama: Distilling and Accelerating Hybrid Models
- Title(参考訳): ラマのマンバ--ハイブリッドモデルの蒸留・加速
- Authors: Junxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao,
- Abstract要約: 注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 76.64055251296548
- License:
- Abstract: Linear RNN architectures, like Mamba, can be competitive with Transformer models in language modeling while having advantageous deployment characteristics. Given the focus on training large-scale Transformer models, we consider the challenge of converting these pretrained models for deployment. We demonstrate that it is feasible to distill large Transformers into linear RNNs by reusing the linear projection weights from attention layers with academic GPU resources. The resulting hybrid model, which incorporates a quarter of the attention layers, achieves performance comparable to the original Transformer in chat benchmarks and outperforms open-source hybrid Mamba models trained from scratch with trillions of tokens in both chat benchmarks and general benchmarks. Moreover, we introduce a hardware-aware speculative decoding algorithm that accelerates the inference speed of Mamba and hybrid models. Overall we show how, with limited computation resources, we can remove many of the original attention layers and generate from the resulting model more efficiently. Our top-performing model, distilled from Llama3-8B-Instruct, achieves a 29.61 length-controlled win rate on AlpacaEval 2 against GPT-4 and 7.35 on MT-Bench, surpassing the best 8B scale instruction-tuned linear RNN model. We also find that the distilled model has natural length extrapolation, showing almost perfect accuracy in the needle-in-a-haystack test at 20x the distillation length. Code and pre-trained checkpoints are open-sourced at https://github.com/jxiw/MambaInLlama and https://github.com/itsdaniele/speculative_mamba.
- Abstract(参考訳): Mambaのような線形RNNアーキテクチャは、言語モデリングにおいてTransformerモデルと競合し、有利なデプロイメント特性を持つ。
大規模トランスフォーマーモデルのトレーニングに重点を置いていることから、これらの事前訓練されたモデルをデプロイメントに変換する上での課題について検討する。
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを実証した。
その結果生まれたハイブリッドモデルは、チャットベンチマークにおけるオリジナルのTransformerに匹敵するパフォーマンスを達成し、チャットベンチマークと一般的なベンチマークの両方で数兆のトークンで、ゼロからトレーニングされたオープンソースのハイブリッドMambaモデルを上回っます。
さらに,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを提案する。
全体として、計算資源が限られているため、元の注目層の多くを取り除き、結果のモデルからより効率的に生成できることを示す。
Llama3-8B-Instructから抽出したトップパフォーマンスモデルは, MT-Bench の GPT-4 と 7.35 に対して AlpacaEval 2 で29.61 の勝利率を達成し, 最大8B スケールの命令調整線形 RNN モデルを上回った。
また, 蒸留モデルでは自然長外挿が可能であり, 蒸留長さの20倍のニードル・イン・ア・ヘイスタック試験では, ほぼ完全な精度が得られた。
コードと事前トレーニングされたチェックポイントはhttps://github.com/jxiw/MambaInLlamaとhttps://github.com/itsdaniele/speculative_mambaでオープンソース化されている。
関連論文リスト
- MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - How Effective are State Space Models for Machine Translation? [19.509486069758495]
トランスフォーマーは現在のNLPのアーキテクチャとして選択されているが、注意層は長いコンテキストではスケールしない。
最近の研究は、注意を線形リカレント層に置き換えることを提案する。
これらのモデルが機械翻訳においてトランスフォーマーと競合するかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-07T20:21:49Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。