論文の概要: LLM Compression: How Far Can We Go in Balancing Size and Performance?
- arxiv url: http://arxiv.org/abs/2508.11318v1
- Date: Fri, 15 Aug 2025 08:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.804966
- Title: LLM Compression: How Far Can We Go in Balancing Size and Performance?
- Title(参考訳): LLM圧縮: サイズとパフォーマンスのバランスをとるには,どこまですればよいのか?
- Authors: Sahil Sk, Debasish Dhal, Sonal Khosla, Sk Shahid, Sambit Shekhar, Akash Dhaka, Shantipriya Parida, Dilip K. Prasad, Ondřej Bojar,
- Abstract要約: 4ビットグループスケーリング量子化(GSQ)とGPTQ(Generative Pretrained Transformer Quantization)をLLaMA 1B,Qwen 0.5B,PHI 1.5Bに適用した。
我々はこれらのモデルをMS MARCO (Information Retrieval), BoolQ (Boolean Question Answering), GSM8K (Mathematical Reasoning)データセットでベンチマークする。
この研究は、モデル圧縮とタスクパフォーマンスのトレードオフを測定し、主要な評価指標を分析する。
- 参考スコア(独自算出の注目度): 3.8420176149841714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quantization is an essential and popular technique for improving the accessibility of large language models (LLMs) by reducing memory usage and computational costs while maintaining performance. In this study, we apply 4-bit Group Scaling Quantization (GSQ) and Generative Pretrained Transformer Quantization (GPTQ) to LLaMA 1B, Qwen 0.5B, and PHI 1.5B, evaluating their impact across multiple NLP tasks. We benchmark these models on MS MARCO (Information Retrieval), BoolQ (Boolean Question Answering), and GSM8K (Mathematical Reasoning) datasets, assessing both accuracy and efficiency across various tasks. The study measures the trade-offs between model compression and task performance, analyzing key evaluation metrics, namely accuracy, inference latency, and throughput (total output tokens generated per second), providing insights into the suitability of low-bit quantization for real-world deployment. Using the results, users can then make suitable decisions based on the specifications that need to be met. We discuss the pros and cons of GSQ and GPTQ techniques on models of different sizes, which also serve as a benchmark for future experiments.
- Abstract(参考訳): 量子化は、性能を維持しながらメモリ使用量と計算コストを削減し、大規模言語モデル(LLM)のアクセシビリティを向上させるための必須かつ一般的な技術である。
本研究では,4ビットグループスケーリング量子化(GSQ)とGPTQ(Generative Pretrained Transformer Quantization)をLLaMA 1B,Qwen 0.5B,PHI 1.5Bに適用し,複数のNLPタスクに対する影響を評価する。
我々はこれらのモデルをMS MARCO(Information Retrieval)、BoolQ(Boolean Question Answering)、GSM8K(Mathematical Reasoning)データセットでベンチマークし、様々なタスクにおける精度と効率を評価する。
この研究は、モデル圧縮とタスクパフォーマンスのトレードオフを測定し、重要な評価指標、すなわち正確性、推論レイテンシ、スループット(毎秒のトータル出力トークン)を分析し、現実世界のデプロイメントにおける低ビット量子化の適性に関する洞察を提供する。
結果を使用することで、ユーザーは満たすべき仕様に基づいて適切な判断を下すことができる。
本稿では,GSQ と GPTQ の異なるモデルにおける長所と短所について論じる。
関連論文リスト
- Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。