論文の概要: Which Quantization Should I Use? A Unified Evaluation of llama.cpp Quantization on Llama-3.1-8B-Instruct
- arxiv url: http://arxiv.org/abs/2601.14277v1
- Date: Sun, 11 Jan 2026 18:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.826745
- Title: Which Quantization Should I Use? A Unified Evaluation of llama.cpp Quantization on Llama-3.1-8B-Instruct
- Title(参考訳): どの量子化を使うべきか? Llama-3.1-8B-インストラクトにおけるllama.cpp量子化の統一評価
- Authors: Uygar Kurt,
- Abstract要約: 量子化(quantization)は、モデル重みの保存と操作に使用する精度を低減し、大規模言語モデルをデプロイしやすくする技術である。
単一近代モデル Llama-3.1-8B-Instruct (KFP16, GGUF) におけるラマ量子化の統一的な実証的研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is a practical technique for making large language models easier to deploy by reducing the precision used to store and operate on model weights. This can lower memory use and improve runtime feasibility on constrained hardware, which is especially relevant for users running models locally. Quantization in llama.cpp enables large language models to run on commodity hardware, but available formats are often evaluated inconsistently, making it hard to choose among schemes. We present a unified empirical study of the llama.cpp quantization on a single modern model, Llama-3.1-8B-Instruct (FP16, GGUF), covering 3-8 bit K-quant and legacy formats. We evaluate downstream task performance across standard reasoning, knowledge, instruction-following, and truthfulness benchmarks, and also measure perplexity and CPU throughput (prefill/decoding) alongside model size, compression, and quantization time. Ultimately, this work is a practical guide for choosing a llama.cpp quantization scheme, helping readers make informed, context-aware decisions for their intended use and resource budget.
- Abstract(参考訳): 量子化(quantization)は、モデル重みの保存と操作に使用する精度を低減し、大規模言語モデルをデプロイしやすくする実践的な手法である。
これによりメモリ使用量が少なくなり、制約のあるハードウェア上でのランタイムの実現性も向上する。
llama.cppの量子化は、大きな言語モデルをコモディティなハードウェア上で実行可能にするが、利用可能なフォーマットはしばしば一貫性が無く評価され、スキーマの選択が困難になる。
本稿では, 1 つの近代モデル Llama-3.1-8B-Instruct (FP16, GGUF) における llama.cpp 量子化の統一的な実証的研究を行い, 3-8 ビット K-quant およびレガシフォーマットについて述べる。
我々は、標準的な推論、知識、命令追従、真理性ベンチマークにまたがるダウンストリームタスクのパフォーマンスを評価し、モデルサイズ、圧縮、量子化時間とともに、パープレキシティとCPUスループット(プリフィル/デコーディング)を測定した。
最終的に、この研究はllama.cpp量子化スキームを選択するための実践的なガイドであり、読者が意図した用途とリソース予算について、理解され、文脈に合った決定を下すのに役立つ。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文 参考訳(メタデータ) (2024-06-10T15:44:22Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。