論文の概要: Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis
- arxiv url: http://arxiv.org/abs/2502.13178v1
- Date: Tue, 18 Feb 2025 07:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:08.285321
- Title: Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis
- Title(参考訳): LLMにおける学習後の量子化のベンチマーク:総合分類学、統一評価、比較分析
- Authors: Jiaqi Zhao, Ming Wang, Miao Zhang, Yuzhang Shang, Xuebo Liu, Yaowei Wang, Min Zhang, Liqiang Nie,
- Abstract要約: 後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
- 参考スコア(独自算出の注目度): 89.60263788590893
- License:
- Abstract: Post-training Quantization (PTQ) technique has been extensively adopted for large language models (LLMs) compression owing to its efficiency and low resource requirement. However, current research lacks a in-depth analysis of the superior and applicable scenarios of each PTQ strategy. In addition, existing algorithms focus primarily on performance, overlooking the trade-off among model size, performance, and quantization bitwidth. To mitigate these confusions, we provide a novel benchmark for LLMs PTQ in this paper. Firstly, in order to support our benchmark, we propose a comprehensive taxonomy for existing mainstream methods by scrutinizing their computational strategies (e.g., optimization-based, compensation-based, etc.). Then, we conduct extensive experiments with the baseline within each class, covering models with various sizes (7B-70B), bitwidths, training levels (LLaMA1/2/3/3.1), architectures (Mixtral, DeepSeekMoE and Mamba) and modality (LLaVA1.5 and VILA1.5) on a wide range of evaluation metrics.Through comparative analysis on the results, we summarize the superior of each PTQ strategy and modelsize-bitwidth trade-off considering the performance. For example, our benchmark reveals that compensation-based technique demonstrates outstanding cross-architecture robustness and extremely low-bit PTQ for ultra large models should be reexamined. Finally, we further accordingly claim that a practical combination of compensation and other PTQ strategy can achieve SOTA various robustness. We believe that our benchmark will provide valuable recommendations for the deployment of LLMs and future research on PTQ approaches.
- Abstract(参考訳): 学習後量子化(PTQ)技術は、その効率性と低リソース要求のため、大規模言語モデル(LLM)圧縮に広く採用されている。
しかし、現在の研究はPTQ戦略の優れたシナリオと適用可能なシナリオの詳細な分析を欠いている。
さらに、既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見下ろしている。
これらの混乱を緩和するため,本論文では LLM PTQ の新たなベンチマークを提案する。
まず、我々のベンチマークをサポートするために、計算戦略(最適化ベース、補償ベースなど)を精査し、既存の主流手法の包括的な分類法を提案する。
次に,各クラス内のベースラインを用いて,様々なサイズ (7B-70B), ビット幅, トレーニングレベル (LLaMA1/2/3/3.1) , アーキテクチャ (Mixtral, DeepSeekMoE, Mamba) , モダリティ (LLaVA1.5, VILA1.5) を幅広い評価指標で比較した。
例えば、我々のベンチマークでは、補償に基づく手法は優れたクロスアーキテクチャロバスト性を示し、超大型モデルに対する極低ビットPTQを再検討すべきである。
最後に、補償と他のPTQ戦略の実践的な組み合わせがSOTAの様々な堅牢性を実現することができると主張している。
当社のベンチマークは,LCMの展開やPTQの今後の研究に有用なレコメンデーションを提供するものと信じている。
関連論文リスト
- Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression [31.30170080420504]
最先端の量子化手法には、限られたキャリブレーションデータに対する圧縮パラメータの微調整(一部)が含まれる。
既存の微調整戦略を一般化し改善する表現に依存しないフレームワークであるPV-Tuningを提案する。
論文 参考訳(メタデータ) (2024-05-23T17:57:04Z) - Evaluating Quantized Large Language Models [17.906969417140505]
学習後量子化(PTQ)は,大規模言語モデル(LLM)のコスト削減のための有望な手法として登場した。
本稿では,PTQがOPT, LLaMA2, Falcon, Bloomz, Mistral, ChatGLM, Vicuna, LongChat, StableLM, Gemma, Mambaを含む11種類のモデルファミリに与える影響を評価することにより,これらの因子の徹底的な評価を行う。
論文 参考訳(メタデータ) (2024-02-28T08:43:05Z) - A Model-Based Machine Learning Approach for Assessing the Performance of
Blockchain Applications [0.0]
ブロックチェーンのパフォーマンスを予測するために、機械学習(ML)モデルベースの手法を使用します。
我々は、最適なブロックチェーン構成を調査できるSalp Swarm Optimization (SO) MLモデルを採用している。
この$k$NNモデルはSVMを5%上回り、ISOは通常のSOに比べて4%の不正確な偏差を減少させることを示した。
論文 参考訳(メタデータ) (2023-09-20T10:39:21Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Is One Epoch All You Need For Multi-Fidelity Hyperparameter
Optimization? [17.21160278797221]
MF-HPO(Multi-fidelity HPO)は、学習過程における中間精度レベルを活用し、早期に低性能モデルを捨てる。
様々な代表的MF-HPO法を,古典的ベンチマークデータに基づく単純なベースラインと比較した。
このベースラインは、計算量を大幅に減らしながら、同等の結果を得た。
論文 参考訳(メタデータ) (2023-07-28T09:14:41Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Generalized Parametric Contrastive Learning [60.62901294843829]
一般化パラメトリックコントラスト学習(GPaCo/PaCo)は、不均衡データとバランスデータの両方でうまく機能する。
長い尾のベンチマークの実験は、長い尾の認識のための新しい最先端を示す。
論文 参考訳(メタデータ) (2022-09-26T03:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。