論文の概要: BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via
Self-Distillation
- arxiv url: http://arxiv.org/abs/2402.10631v1
- Date: Fri, 16 Feb 2024 12:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:28:27.722369
- Title: BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via
Self-Distillation
- Title(参考訳): BitDistiller: 自己蒸留によるサブ4ビットLCMの可能性
- Authors: Dayou Du, Yijia Zhang, Shijie Cao, Jiaqi Guo, Ting Cao, Xiaowen Chu,
Ningyi Xu
- Abstract要約: BitDistillerは、大規模言語モデル(LLM)の性能を高めるために、知識蒸留(KD)と量子化認識トレーニング(QAT)を相乗化するフレームワークである。
具体的には、BitDistillerはまず、量子化された重みの忠実さを最大限に保存するために、調整された非対称な量子化とクリッピング技術を導入し、その後、新しい信頼性・コールバック・リーブラー分岐(CAKLD)の目的を提案する。
実証的な評価では、BitDistillerは、一般的な言語理解と複雑な推論ベンチマーク上の3ビットおよび2ビット構成の両方において、既存のメソッドを大幅に上回っている。
- 参考スコア(独自算出の注目度): 13.262366437264188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The upscaling of Large Language Models (LLMs) has yielded impressive advances
in natural language processing, yet it also poses significant deployment
challenges. Weight quantization has emerged as a widely embraced solution to
reduce memory and computational demands. This paper introduces BitDistiller, a
framework that synergizes Quantization-Aware Training (QAT) with Knowledge
Distillation (KD) to boost the performance of LLMs at ultra-low precisions
(sub-4-bit). Specifically, BitDistiller first incorporates a tailored
asymmetric quantization and clipping technique to maximally preserve the
fidelity of quantized weights, and then proposes a novel Confidence-Aware
Kullback-Leibler Divergence (CAKLD) objective, which is employed in a
self-distillation manner to enable faster convergence and superior model
performance. Empirical evaluations demonstrate that BitDistiller significantly
surpasses existing methods in both 3-bit and 2-bit configurations on general
language understanding and complex reasoning benchmarks. Notably, BitDistiller
is shown to be more cost-effective, demanding fewer data and training
resources. The code is available at https://github.com/DD-DuDa/BitDistiller.
- Abstract(参考訳): 大規模言語モデル(llm)のスケールアップは、自然言語処理において驚くべき進歩をもたらしたが、デプロイメントの課題も大きい。
軽量量子化は、メモリと計算要求を減らすための広く受け入れられたソリューションとして登場した。
本稿では,QAT(Quantization-Aware Training)とKD(Knowledge Distillation)を併用して,超低精度(sub-4-bit)でのLCMの性能向上を実現するフレームワークであるBitDistillerを紹介する。
具体的には、BitDistillerはまず、量子化された重みの忠実さを最大限に保存するために、調整された非対称量子化とクリッピング技術を導入し、さらに、より高速な収束と優れたモデル性能を実現するために、自己蒸留方式で使用される新しい信頼-認識カルバック-リブラー分岐(CAKLD)の目標を提案する。
経験的評価により、一般言語理解と複雑な推論ベンチマークにおいて、bitdistillerは3ビットと2ビットの両方の既存の方法を大幅に上回っていることが示されている。
特にBitDistillerは費用対効果が高く、データやトレーニングリソースの削減が求められている。
コードはhttps://github.com/DD-DuDa/BitDistiller.comで入手できる。
関連論文リスト
- BitMoD: Bit-serial Mixture-of-Datatype LLM Acceleration [7.774285511386959]
大規模言語モデル(LLM)は、さまざまな機械学習タスクで顕著なパフォーマンスを示している。
しかし、LLMのかなりのメモリフットプリントは、そのデプロイメントを著しく妨げている。
我々は,アルゴリズムとハードウェアの共同設計ソリューションであるBitMoDを用いて,LLMのアクセシビリティを向上させる。
論文 参考訳(メタデータ) (2024-11-18T17:16:58Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。