論文の概要: The Mamba in the Llama: Distilling and Accelerating Hybrid Models
- arxiv url: http://arxiv.org/abs/2408.15237v1
- Date: Tue, 27 Aug 2024 17:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 12:53:10.586919
- Title: The Mamba in the Llama: Distilling and Accelerating Hybrid Models
- Title(参考訳): ラマのマンバ--ハイブリッドモデルの蒸留・加速
- Authors: Junxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao,
- Abstract要約: 注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 76.64055251296548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear RNN architectures, like Mamba, can be competitive with Transformer models in language modeling while having advantageous deployment characteristics. Given the focus on training large-scale Transformer models, we consider the challenge of converting these pretrained models for deployment. We demonstrate that it is feasible to distill large Transformers into linear RNNs by reusing the linear projection weights from attention layers with academic GPU resources. The resulting hybrid model, which incorporates a quarter of the attention layers, achieves performance comparable to the original Transformer in chat benchmarks and outperforms open-source hybrid Mamba models trained from scratch with trillions of tokens in both chat benchmarks and general benchmarks. Moreover, we introduce a hardware-aware speculative decoding algorithm that accelerates the inference speed of Mamba and hybrid models. Overall we show how, with limited computation resources, we can remove many of the original attention layers and generate from the resulting model more efficiently. Our top-performing model, distilled from Llama3-8B-Instruct, achieves a 29.61 length-controlled win rate on AlpacaEval 2 against GPT-4 and 7.35 on MT-Bench, surpassing the best instruction-tuned linear RNN model.
- Abstract(参考訳): Mambaのような線形RNNアーキテクチャは、言語モデリングにおいてTransformerモデルと競合し、有利なデプロイメント特性を持つ。
大規模トランスフォーマーモデルのトレーニングに重点を置いていることから、これらの事前訓練されたモデルをデプロイメントに変換する上での課題について検討する。
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを実証した。
その結果生まれたハイブリッドモデルは、チャットベンチマークにおけるオリジナルのTransformerに匹敵するパフォーマンスを達成し、チャットベンチマークと一般的なベンチマークの両方で数兆のトークンで、ゼロからトレーニングされたオープンソースのハイブリッドMambaモデルを上回っます。
さらに,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを提案する。
全体として、計算資源が限られているため、元の注目層の多くを取り除き、結果のモデルからより効率的に生成できることを示す。
Llama3-8B-Instruct から抽出したトップパフォーマンスモデルでは,AlpacaEval 2 の GPT-4 と MT-Bench の 7.35 に対して29.61 の勝利率を達成し,最良命令調整線形 RNN モデルを上回った。
関連論文リスト
- How Effective are State Space Models for Machine Translation? [19.509486069758495]
トランスフォーマーは現在のNLPのアーキテクチャとして選択されているが、注意層は長いコンテキストではスケールしない。
最近の研究は、注意を線形リカレント層に置き換えることを提案する。
これらのモデルが機械翻訳においてトランスフォーマーと競合するかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-07T20:21:49Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
また、DeltaNet層を他の層または2つのグローバルアテンション層すべてにスライドウインドウアテンション層と組み合わせた2つのハイブリッドモデルの実験を行った。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。