Fugu-MT 論文翻訳(概要): BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

論文の概要: BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

arxiv url: http://arxiv.org/abs/2402.04291v1
Date: Tue, 6 Feb 2024 09:26:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 18:32:52.479052
Title: BiLLM: Pushing the Limit of Post-Training Quantization for LLMs
Title（参考訳）: billm: llmのトレーニング後の量子化の限界を押し上げる
Authors: Wei Huang, Yangdong Liu, Haotong Qin, Ying Li, Shiming Zhang, Xianglong Liu, Michele Magno, Xiaojuan Qi
Abstract要約: BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
参考スコア（独自算出の注目度）: 55.61026644837707
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretrained large language models (LLMs) exhibit exceptional general language processing capabilities but come with significant demands on memory and computational resources. As a powerful compression technology, binarization can extremely reduce model weights to a mere 1 bit, lowering the expensive computation and memory requirements. However, existing quantization techniques fall short of maintaining LLM performance under ultra-low bit-widths. In response to this challenge, we present BiLLM, a groundbreaking 1-bit post-training quantization scheme tailored for pretrained LLMs. Based on the weight distribution of LLMs, BiLLM first identifies and structurally selects salient weights, and minimizes the compression loss through an effective binary residual approximation strategy. Moreover, considering the bell-shaped distribution of the non-salient weights, we propose an optimal splitting search to group and binarize them accurately. BiLLM achieving for the first time high-accuracy inference (e.g. 8.41 perplexity on LLaMA2-70B) with only 1.08-bit weights across various LLMs families and evaluation metrics, outperforms SOTA quantization methods of LLM by significant margins. Moreover, BiLLM enables the binarization process of the LLM with 7 billion weights within 0.5 hours on a single GPU, demonstrating satisfactory time efficiency.
Abstract（参考訳）: 事前学習された大規模言語モデル(llms)は、例外的な汎用言語処理能力を示すが、メモリと計算資源に大きな要求がある。強力な圧縮技術として、バイナライゼーションはモデル重みをわずか1ビットに減らし、高価な計算とメモリ要求を低減させる。しかし、既存の量子化技術は、超低ビット幅でのLLM性能を維持するには不十分である。この課題に対応して,事前学習LLMに適した1ビット後量子化方式であるBiLLMを提案する。 LLMの重み分布に基づいて、BiLLMはまず有意な重みを識別し、構造的に選択し、効率的な二乗残差近似戦略により圧縮損失を最小化する。さらに,非塩分重みのベル形状分布を考慮し,グループ化と二項化を正確に行うための最適分割探索を提案する。 billmは、様々なllmファミリーにまたがる1.08ビットの重みと評価指標を持つ、初めて高精度な推論(例えば、llama2-70bの8.41パープレキシティ)を達成し、llmのsoma量子化法をかなりマージンで上回っている。さらに、BiLLMは、1つのGPU上で0.5時間以内に70億の重みを持つLLMのバイナライズプロセスを可能にし、良好な時間効率を示す。

関連論文リスト

Highly Efficient and Effective LLMs with Multi-Boolean Architectures [1.4195677954898822]
大型言語モデル(LLM)の複雑さを劇的に減らすための有望な戦略として、重み二項化が登場した。本稿では,LLMをマルチカーネルブールパラメータに効果的に変換する新しいフレームワークを提案する。提案手法は,近年の超低ビット量子化法とバイナライゼーション法より優れている。
論文参考訳（メタデータ） (2025-05-28T19:40:34Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [28.70239743254508]
LLM圧縮のための最初の構造双対化法を1ビット未満の精度で提案する。バイナライズされたLLMの重みは、性能劣化を伴わずにランダムに反転することができる。本手法は他の圧縮バイナライズ手法よりも優れた性能を示しながら,メモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2024-08-03T15:07:44Z)
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。 Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文参考訳（メタデータ） (2024-07-15T17:59:29Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。 5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。 5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文参考訳（メタデータ） (2024-06-10T02:47:55Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models [14.929695160346276]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。 SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文参考訳（メタデータ） (2022-11-18T18:59:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。