論文の概要: ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization
- arxiv url: http://arxiv.org/abs/2406.05981v2
- Date: Tue, 11 Jun 2024 15:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:24:05.180092
- Title: ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization
- Title(参考訳): ShiftAddLLM: トレーニング後の乗算レスパラメータ化による事前学習LDMの高速化
- Authors: Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan, Lin,
- Abstract要約: ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
- 参考スコア(独自算出の注目度): 12.888883917138312
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have shown impressive performance on language tasks but face challenges when deployed on resource-constrained devices due to their extensive parameters and reliance on dense multiplications, resulting in high memory demands and latency bottlenecks. Shift-and-add reparameterization offers a promising solution by replacing costly multiplications with hardware-friendly primitives in both the attention and multi-layer perceptron (MLP) layers of an LLM. However, current reparameterization techniques require training from scratch or full parameter fine-tuning to restore accuracy, which is resource-intensive for LLMs. To address this, we propose accelerating pretrained LLMs through post-training shift-and-add reparameterization, creating efficient multiplication-free models, dubbed ShiftAddLLM. Specifically, we quantize each weight matrix into binary matrices paired with group-wise scaling factors. The associated multiplications are reparameterized into (1) shifts between activations and scaling factors and (2) queries and adds according to the binary matrices. To reduce accuracy loss, we present a multi-objective optimization method to minimize both weight and output activation reparameterization errors. Additionally, based on varying sensitivity across layers to reparameterization, we develop an automated bit allocation strategy to further reduce memory usage and latency. Experiments on five LLM families and eight tasks consistently validate the effectiveness of ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points at comparable or lower latency compared to the most competitive quantized LLMs at 3 and 2 bits, respectively, and more than 80% memory and energy reductions over the original LLMs. Codes and models are available at https://github.com/GATECH-EIC/ShiftAddLLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語タスクにおいて顕著なパフォーマンスを示しているが、リソース制約のあるデバイスにデプロイする際の課題は、その広範なパラメータと密度の高い乗算に依存するため、高いメモリ要求と遅延ボトルネックをもたらす。
Shift-and-add再パラメータ化は、LLMの注目層と多層パーセプトロン(MLP)層の両方において、ハードウェアフレンドリなプリミティブにコストのかかる乗算を置き換えることで、有望なソリューションを提供する。
しかし、現在の再パラメータ化技術では、LLMのリソース集約的な精度を回復するために、スクラッチやフルパラメータの微調整からのトレーニングが必要である。
そこで本研究では,事前学習後の再パラメータ化を高速化し,ShiftAddLLMと呼ばれる効率的な乗算自由モデルを作成することを提案する。
具体的には,各重み行列を群ワイドスケーリング因子と組み合わせた二乗行列に定量化する。
関連する乗算は(1)アクティベーションとスケーリング係数のシフト、(2)クエリに再パラメータ化され、バイナリ行列に従って加算される。
精度損失を低減するため,重みと出力のアクティベーション再パラメータ化誤差を最小化する多目的最適化手法を提案する。
さらに、再パラメータ化のための層間の感度の変化に基づいて、メモリ使用量とレイテンシをさらに削減する自動ビット割り当て戦略を開発する。
5つのLLMファミリーと8つのタスクによる実験は、ShiftAddLLMの有効性を一貫して検証し、それぞれ3ビットと2ビットの最も競争力のある量子化LDMと比較して5.6ポイントと22.7ポイントの平均パープレキシティ改善を実現し、元のLCMよりも80%以上のメモリとエネルギー削減を実現した。
コードとモデルはhttps://github.com/GATECH-EIC/ShiftAddLLM.comで公開されている。
関連論文リスト
- Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models [1.530997923234786]
大規模言語モデル(LLM)が登場し、1つのモデルでそれらの一般的な問題解決能力を示した。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
その結果,9%のモデルサイズ削減を最小限の精度で達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - R2GenGPT: Radiology Report Generation with Frozen LLMs [47.72270349660438]
R2GenGPTは、視覚的特徴をLLMの単語埋め込み空間と整合させる新しいソリューションである。
R2GenGPTは、軽量なビジュアルアライメントモジュールのみをトレーニングすることで、最先端(SOTA)のパフォーマンスを実現する。
我々のモデルは、SOTAレベルに近い性能を達成するために、500Mパラメータのみを訓練する。
論文 参考訳(メタデータ) (2023-09-18T14:35:35Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models [14.929695160346276]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。
SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。
最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文 参考訳(メタデータ) (2022-11-18T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。