論文の概要: STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs
- arxiv url: http://arxiv.org/abs/2408.01803v1
- Date: Sat, 3 Aug 2024 15:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:21:07.274935
- Title: STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs
- Title(参考訳): STBLLM: 構造付きバイナリLLMで1ビットバリアを壊す
- Authors: Peijie Dong, Lujun Li, Dayou Du, Yuhan Chen, Zhenheng Tang, Qiang Wang, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo, Xiaowen Chu,
- Abstract要約: 本稿では,Large Language Models (LLM) を1ビット未満の精度で圧縮するための,最初の構造バイナライズフレームワークSTBLLMを提案する。
両値化LDMの重み付けは,性能劣化を伴わずにランダムに反転することが可能であり,さらなる圧縮の可能性を示している。
我々は,STBLLMの有効性を評価するために,LLaMA-1/2/3,OPTファミリ,Mistralなど様々な言語モデルに関する広範な実験を行った。
- 参考スコア(独自算出の注目度): 42.43051179195973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present STBLLM, the first structural binarization framework for compressing Large Language Models (LLMs) to less than 1-bit precision. LLMs have achieved remarkable performance, but their heavy memory requirements have hindered widespread adoption, particularly on resource-constrained devices. Binarization, which quantifies weights to a mere 1-bit, achieves a milestone in increasing computational efficiency. However, we observe that some weights in binarized LLMs can be randomly flipped without significant performance degradation, indicating the potential for further compression. To exploit this, our STBLLM employs an N:M sparsity to perform structural binarization of the weights. First, we introduce a new Standardized Importance (SI) metric that considers weight magnitude and input feature norm to better evaluate weight significance. Then, we propose a layer-wise approach where different layers of the LLM can be sparsified with varying N:M ratios, balancing compression and accuracy. Finally, we use residual approximation with double binarization to preserve information for salient weights. In addition, we utilize a fine-grained grouping strategy for less important weights that applies different quantization schemes to sparse, intermediate, and dense regions. We conduct extensive experiments on various language models, including the LLaMA-1/2/3, OPT family, and Mistral, to evaluate the effectiveness of STBLLM. The results demonstrate that our approach performs better than other compressed binarization LLM methods while significantly reducing memory requirements.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) を1ビット未満の精度で圧縮する最初の構造バイナライズフレームワークSTBLLMを提案する。
LLMは目覚ましい性能を達成しているが、その大量のメモリ要件は、特にリソース制約のあるデバイスにおいて、広く採用されることを妨げている。
重みをわずか1ビットに定量化するバイナリ化は、計算効率の向上においてマイルストーンを達成している。
しかし, 2項化LDMの重みは, 大幅な性能劣化を伴わずにランダムにフリップすることが可能であり, さらなる圧縮の可能性を示している。
これを利用するために、我々のSTBLLMはN:M間隔を用いて重みの構造的双対化を行う。
まず,重み度と入力特徴ノルムを考慮したSI(Standardized Importance)メトリクスを導入し,重み度をよりよく評価する。
そこで我々は,LLMの異なる層を異なるN:M比で分散し,圧縮と精度のバランスをとるレイヤワイズアプローチを提案する。
最後に,二項化を併用した残差近似を用いて,有意な重み情報を保存する。
さらに,より重要度の低い重み付けに,スパース領域,中間領域,および密度領域に異なる量子化スキームを適用するための,きめ細かいグループ化戦略を利用する。
我々は,STBLLMの有効性を評価するために,LLaMA-1/2/3,OPTファミリ,Mistralなど様々な言語モデルに関する広範な実験を行った。
その結果,本手法は他の圧縮バイナライズLLM法よりも優れた性能を示し,メモリ要求を著しく低減した。
関連論文リスト
- Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。