論文の概要: Does quantization affect models' performance on long-context tasks?
- arxiv url: http://arxiv.org/abs/2505.20276v2
- Date: Tue, 27 May 2025 12:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.142181
- Title: Does quantization affect models' performance on long-context tasks?
- Title(参考訳): 量子化はロングコンテキストタスクにおけるモデルの性能に影響を及ぼすか?
- Authors: Anmol Mekala, Anirudh Atmakuru, Yixiao Song, Marzena Karpinska, Mohit Iyyer,
- Abstract要約: 大きな言語モデル(LLM)は、コンテキストウィンドウが128K以上のトークンをサポートするようになった。
これには大きなメモリ要件と高い推論遅延が伴う。
本稿では,長文および長文出力のタスクにおける量子化LDMの最初の体系的評価について述べる。
- 参考スコア(独自算出の注目度): 35.572317113701516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now support context windows exceeding 128K tokens, but this comes with significant memory requirements and high inference latency. Quantization can mitigate these costs, but may degrade performance. In this work, we present the first systematic evaluation of quantized LLMs on tasks with long-inputs (>64K tokens) and long-form outputs. Our evaluation spans 9.7K test examples, five quantization methods (FP8, GPTQ-int8, AWQ-int4, GPTQ-int4, BNB-nf4), and five models (Llama-3.1 8B and 70B; Qwen-2.5 7B, 32B, and 72B). We find that, on average, 8-bit quantization preserves accuracy (~0.8% drop), whereas 4-bit methods lead to substantial losses, especially for tasks involving long context inputs (drops of up to 59%). This degradation tends to worsen when the input is in a language other than English. Crucially, the effects of quantization depend heavily on the quantization method, model, and task. For instance, while Qwen-2.5 72B remains robust under BNB-nf4, Llama-3.1 70B experiences a 32% performance drop on the same task. These findings highlight the importance of a careful, task-specific evaluation before deploying quantized LLMs, particularly in long-context scenarios and with languages other than English.
- Abstract(参考訳): 大きな言語モデル(LLM)は、128Kトークンを超えるコンテキストウィンドウをサポートするようになった。
量子化はこれらのコストを軽減することができるが、性能を低下させる可能性がある。
本研究では,長文(>64Kトークン)と長文出力のタスクに対して,量子化LDMを初めて体系的に評価する。
評価対象は,9.7K試験例,5種類の量子化法(FP8, GPTQ-int8, AWQ-int4, GPTQ-int4, BNB-nf4),5種類のモデル(Llama-3.1 8B, 70B, Qwen-2.5 7B, 32B, 72B)である。
平均8ビット量子化は精度(~0.8%の低下)を保っているのに対し、4ビット法は特に長期の文脈入力を含むタスク(最大59%)において大きな損失をもたらすことがわかった。
この劣化は英語以外の言語での入力が悪化する傾向にある。
重要なことに、量子化の効果は量子化法、モデル、タスクに大きく依存する。
例えば、Qwen-2.5 72BはBNB-nf4で頑健だが、Llama-3.1 70Bは同じタスクで32%のパフォーマンス低下を経験している。
これらの知見は、特に長文のシナリオや英語以外の言語で、量子化LDMをデプロイする前に、注意深いタスク固有の評価の重要性を強調している。
関連論文リスト
- An Empirical Study of Qwen3 Quantization [30.214896404069677]
低ビット量子化は有望な解であるが、Qwen3の性能への影響は未解明のままである。
Qwen3に適用された5つの古典的ポストトレーニング量子化手法を,1ビットから8ビットまでのビット幅で厳格に評価する。
以上の結果から,Qwen3は適度なビット幅での競合性能を維持しながら,超低精度での言語タスクの顕著な劣化を経験していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-04T18:43:44Z) - MBQ: Modality-Balanced Quantization for Large Vision-Language Models [20.018652727875367]
PTQ(Post-Training Quantization)は、メモリと計算オーバーヘッドを削減する効果的な手法である。
既存のPTQ手法は主に大きな言語モデル(LLM)に焦点をあてるが、他のモダリティの相違は考慮しない。
大規模な視覚言語モデルに対して,MBQ(Modality-Balanced Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:55:36Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z) - Analyzing Quantization in TVM [0.0]
TVMは重量を定量化し、低ビット計算をサポートする。
8ビットの量子化は通常、全精度推論時間の約50%を達成することが期待されている。
本研究の目的は,TVMにおける8ビット量子化の互換性と最適化の機会を評価することにある。
論文 参考訳(メタデータ) (2023-08-19T07:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。