論文の概要: Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox
- arxiv url: http://arxiv.org/abs/2406.12928v1
- Date: Sat, 15 Jun 2024 12:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 00:47:45.602436
- Title: Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox
- Title(参考訳): 量子化LDMの一般化能力の評価:ベンチマーク,解析,ツールボックス
- Authors: Yijun Liu, Yuan Meng, Fang Wu, Shenhao Peng, Hang Yao, Chaoyu Guan, Chen Tang, Xinzhu Ma, Zhi Wang, Wenwu Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
- 参考スコア(独自算出の注目度): 46.39670209441478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited exciting progress in multiple scenarios, while the huge computational demands hinder their deployments in lots of real-world applications. As an effective means to reduce memory footprint and inference cost, quantization also faces challenges in performance degradation at low bit-widths. Understanding the impact of quantization on LLM capabilities, especially the generalization ability, is crucial. However, the community's main focus remains on the algorithms and models of quantization, with insufficient attention given to whether the quantized models can retain the strong generalization abilities of LLMs. In this work, we fill this gap by providing a comprehensive benchmark suite for this research topic, including an evaluation system, detailed analyses, and a general toolbox. Specifically, based on the dominant pipeline in LLM quantization, we primarily explore the impact of calibration data distribution on the generalization of quantized LLMs and conduct the benchmark using more than 40 datasets within two main scenarios. Based on this benchmark, we conduct extensive experiments with two well-known LLMs (English and Chinese) and four quantization algorithms to investigate this topic in-depth, yielding several counter-intuitive and valuable findings, e.g., models quantized using a calibration set with the same distribution as the test data are not necessarily optimal. Besides, to facilitate future research, we also release a modular-designed toolbox, which decouples the overall pipeline into several separate components, e.g., base LLM module, dataset module, quantizer module, etc. and allows subsequent researchers to easily assemble their methods through a simple configuration. Our benchmark suite is publicly available at https://github.com/TsingmaoAI/MI-optimize
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のシナリオにおいてエキサイティングな進歩を見せている一方、膨大な計算要求によって、多くの現実世界のアプリケーションへのデプロイが妨げられている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
量子化がLLM能力、特に一般化能力に与える影響を理解することは重要である。
しかし、コミュニティの主な焦点は量子化のアルゴリズムとモデルであり、量子化モデルがLSMの強い一般化能力を維持できるかどうかについては十分に注目されていない。
本研究は,評価システム,詳細な分析,汎用ツールボックスなど,本研究の総合的なベンチマークスイートを提供することで,このギャップを埋めるものである。
具体的には, LLM量子化における支配的なパイプラインに基づいて, LLMの一般化に対するキャリブレーションデータ分布の影響を探索し, 2つの主要なシナリオにおいて40以上のデータセットを用いてベンチマークを行う。
このベンチマークに基づいて、2つの有名なLLM(英語と中国語)と4つの量子化アルゴリズムを用いて広範に実験を行い、このトピックを詳細に調査し、例えば、テストデータと同じ分布のキャリブレーションを用いて量子化されたモデルが必ずしも最適ではないことを示す。
さらに、将来の研究を促進するために、モジュール設計のツールボックスもリリースしています。このツールボックスは、パイプライン全体を、例えば、ベースLLMモジュール、データセットモジュール、量子化モジュールなど、いくつかの別々のコンポーネントに分離し、その後の研究者が簡単な構成でメソッドを簡単に組み立てることができます。
ベンチマークスイートはhttps://github.com/TsingmaoAI/MI-timizeで公開されています。
関連論文リスト
- SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs [10.385919320080017]
大規模言語モデルのためのトレーニング不要かつデータ非依存な重みのみ量子化アルゴリズムであるEasyQuantを提案する。
EasyQuantはオリジナルのモデルに匹敵するパフォーマンスを実現している。
我々のアルゴリズムはデータ依存手法の10倍以上の速度で動作します。
論文 参考訳(メタデータ) (2024-03-05T08:45:30Z) - A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T17:45:36Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。