論文の概要: Scalable MatMul-free Language Modeling
- arxiv url: http://arxiv.org/abs/2406.02528v5
- Date: Tue, 18 Jun 2024 17:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:11:08.003241
- Title: Scalable MatMul-free Language Modeling
- Title(参考訳): スケーラブルなmatMulフリー言語モデリング
- Authors: Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou, Jason K. Eshraghian,
- Abstract要約: MatMul操作は大規模言語モデルから完全に除去可能であることを示す。
提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
- 参考スコア(独自算出の注目度): 8.672867887354977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this work, we show that MatMul operations can be completely eliminated from LLMs while maintaining strong performance at billion-parameter scales. Our experiments show that our proposed MatMul-free models achieve performance on-par with state-of-the-art Transformers that require far more memory during inference at a scale up to at least 2.7B parameters. We investigate the scaling laws and find that the performance gap between our MatMul-free models and full precision Transformers narrows as the model size increases. We also provide a GPU-efficient implementation of this model which reduces memory usage by up to 61% over an unoptimized baseline during training. By utilizing an optimized kernel during inference, our model's memory consumption can be reduced by more than 10x compared to unoptimized models. To properly quantify the efficiency of our architecture, we build a custom hardware solution on an FPGA which exploits lightweight operations beyond what GPUs are capable of. We processed billion-parameter scale models at 13W beyond human readable throughput, moving LLMs closer to brain-like efficiency. This work not only shows how far LLMs can be stripped back while still performing effectively, but also points at the types of operations future accelerators should be optimized for in processing the next generation of lightweight LLMs. Our code implementation is available at https://github.com/ridgerchu/matmulfreellm.
- Abstract(参考訳): 行列乗法 (MatMul) は一般に大規模言語モデル (LLM) の計算コストを支配している。
このコストは、LLMがより大きな埋め込み次元とコンテキスト長にスケールするにつれて増大する。
本研究では,10億パラメータスケールで高い性能を維持しながら,MateMul 演算を LLM から完全に除去できることを示す。
実験の結果,提案したMatMulフリーモデルは,少なくとも2.7Bパラメータのスケールでの推論において,はるかに多くのメモリを必要とする最先端のトランスフォーマーと同等の性能が得られることがわかった。
スケーリング法則を調査し,モデルサイズが大きくなるにつれて,我々のMatMulフリーモデルと完全精度トランスフォーマーのパフォーマンスギャップが狭まることを確かめる。
また、トレーニング中に最適化されていないベースラインに対して最大61%のメモリ使用量を削減できるGPU効率のよい実装も提供します。
推論中に最適化されたカーネルを利用することで、最適化されていないモデルと比較してメモリ消費を10倍以上削減することができる。
アーキテクチャの効率を適切に定量化するために、FPGA上にカスタムハードウェアソリューションを構築します。
13Wで10億パラメータのスケールモデルを人間の可読スループットを超えて処理し、LLMを脳に似た効率に近づけました。
この研究は、LLMがいつまで有効に機能するかを示すだけでなく、次世代軽量LLMの処理に最適化されるべき操作のタイプについても指摘する。
私たちのコード実装はhttps://github.com/ridgerchu/matmulfreellm.comで利用可能です。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。
1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。
これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文 参考訳(メタデータ) (2024-02-27T18:56:19Z) - FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - FlightLLM: Efficient Large Language Model Inference with a Complete
Mapping Flow on FPGAs [23.381331567339526]
Transformer-based Large Language Models (LLMs) は様々な領域に多大な影響を与えている。
本稿では,FPGA上での完全なマッピングフローを用いて,効率的なLLM推論を実現するFlightLLMを提案する。
FlightLLMは最新のVersal VHK158 FPGAを使用して1.2$times$高スループットでNVIDIA A100 GPUを破る。
論文 参考訳(メタデータ) (2024-01-08T13:00:53Z) - Efficient LLM Inference on CPUs [8.802223672775844]
大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。
これらのモデルのデプロイは、天文学的なモデルパラメータの量のために困難でした。
LLMのデプロイをより効率的にするための効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:08:50Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。