Fugu-MT 論文翻訳(概要): LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models

論文の概要: LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models

arxiv url: http://arxiv.org/abs/2405.06001v1
Date: Thu, 9 May 2024 11:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-13 17:36:09.271825
Title: LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models
Title（参考訳）: LLM-QBench:大規模言語モデルのトレーニング後量子化のベストプラクティスに向けたベンチマーク
Authors: Ruihao Gong, Yang Yong, Shiqiao Gu, Yushi Huang, Yunchen Zhang, Xianglong Liu, Dacheng Tao,
Abstract要約: 我々は、大規模言語モデル(LLM)の定量化に最も効果的なプラクティスを特定することに重点を置いている。我々は、量子化ツールキットLLMCを開発し、推論効率、量子化精度、校正コスト、モジュラー化を考慮した4つの重要な原理を設計する。
参考スコア（独自算出の注目度）: 58.134170339170396
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large language models (LLMs) are propelling us toward artificial general intelligence, thanks to their remarkable emergent abilities and reasoning capabilities. However, the substantial computational and memory requirements of LLMs limit their widespread adoption. Quan- tization, a key compression technique, offers a viable solution to mitigate these demands by compressing and accelerating LLMs, albeit with poten- tial risks to model accuracy. Numerous studies have aimed to minimize the accuracy loss associated with quantization. However, the quantization configurations in these studies vary and may not be optimized for hard- ware compatibility. In this paper, we focus on identifying the most effective practices for quantizing LLMs, with the goal of balancing performance with computational efficiency. For a fair analysis, we develop a quantization toolkit LLMC, and design four crucial principles considering the inference efficiency, quantized accuracy, calibration cost, and modularization. By benchmarking on various models and datasets with over 500 experiments, three takeaways corresponding to calibration data, quantization algorithm, and quantization schemes are derived. Finally, a best practice of LLM PTQ pipeline is constructed. All the benchmark results and the toolkit can be found at https://github.com/ModelTC/llmc.
Abstract（参考訳）: 大規模言語モデル(LLMs)の最近の進歩は、目覚ましい創発的能力と推論能力のおかげで、私たちを人工知能に向かわせている。しかし、LLMの計算とメモリの要求は広く採用されるのを制限している。キー圧縮技術であるQuan-tizationは、精度をモデル化するためのポテンティルリスクがあるにもかかわらず、LSMを圧縮し、加速することにより、これらの要求を緩和する実行可能なソリューションを提供する。多くの研究は量子化に伴う精度損失を最小限にすることを目的としている。しかし、これらの研究における量子化の構成は様々であり、ハードウエアとの互換性に最適化されていない可能性がある。本稿では,計算効率と性能のバランスをとることを目的として,LLMの定量化における最も効果的な手法の同定に焦点をあてる。公平な分析のために,量子化ツールキットLLMCを開発し,推論効率,量子化精度,校正コスト,モジュール化の4つの重要な原理を設計する。様々なモデルやデータセットを500以上の実験でベンチマークすることにより、キャリブレーションデータ、量子化アルゴリズム、量子化スキームに対応する3つのテイクアウトが導出される。最後に,LLM PTQパイプラインのベストプラクティスを構築した。すべてのベンチマーク結果とツールキットはhttps://github.com/ModelTC/llmc.comで見ることができる。

関連論文リスト

Is Quantization a Deal-breaker? Empirical Insights from Large Code Models [7.182449176083625]
我々は、広く使われている2つのコードモデル、CodeLlamaとDeepSeekCoderにActivation-Aware Weight Quantization (AWQ)を適用し、JavaとPythonコードを生成する。この結果から,量子化は機能的正当性を保持するだけでなく,開発者が求める重要な定性的なコード属性も保持する,堅牢な手法であることが判明した。
論文参考訳（メタデータ） (2025-07-13T14:58:19Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文参考訳（メタデータ） (2025-04-28T12:47:23Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
Quantize What Counts: Bit Allocation Insights Informed by Spectral Gaps in Keys and Values [57.54443445583921]
KV量子化法の拡張を目的とした2つの新しい定理を提供する。我々の最初の定理は、キー値ノルム格差(Key-Value Norm Disparity)と呼ばれ、鍵重み行列がよりリッチな情報を持っていることを述べる。第2の定理であるキー駆動量子化(Key-Driven Quantization)は、値上のキーの量子化精度の優先順位付けは、全体的な量子化性能に大きな改善をもたらすという仮説である。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
A Comprehensive Study on Quantization Techniques for Large Language Models [0.0]
大規模言語モデル(LLM)は、学術と産業の両方で広く研究され、利用されている。 LLMは、リソースに制約のあるIoTデバイスや組み込みシステムにデプロイする上で、重大な課題を提示している。量子化(Quantization)は、モデルの値の精度を小さな離散値のセットに縮める技術であり、有望な解決策を提供する。
論文参考訳（メタデータ） (2024-10-30T04:55:26Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文参考訳（メタデータ） (2024-06-15T12:02:14Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
The Cost of Compression: Investigating the Impact of Compression on Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。 2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。 LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文参考訳（メタデータ） (2023-12-01T22:27:12Z)
QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文参考訳（メタデータ） (2023-09-05T01:39:09Z)
An Empirical Study of Low Precision Quantization for TinyML [8.939851623894334]
モデルから低ビット(8ビット未満)の精度を小さなキャリブレーションデータで定量化するPTQアルゴリズムに着目する。公平な比較を実現するため,最近のPTQアルゴリズムを解析するために,シミュレーション量子化フレームワークを構築した。パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の鍵となる設計選択を明らかにする。
論文参考訳（メタデータ） (2022-03-10T17:22:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。