Fugu-MT 論文翻訳(概要): Does quantization affect models' performance on long-context tasks?

論文の概要: Does quantization affect models' performance on long-context tasks?

arxiv url: http://arxiv.org/abs/2505.20276v2
Date: Tue, 27 May 2025 12:33:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.142181
Title: Does quantization affect models' performance on long-context tasks?
Title（参考訳）: 量子化はロングコンテキストタスクにおけるモデルの性能に影響を及ぼすか?
Authors: Anmol Mekala, Anirudh Atmakuru, Yixiao Song, Marzena Karpinska, Mohit Iyyer,
Abstract要約: 大きな言語モデル(LLM)は、コンテキストウィンドウが128K以上のトークンをサポートするようになった。これには大きなメモリ要件と高い推論遅延が伴う。本稿では,長文および長文出力のタスクにおける量子化LDMの最初の体系的評価について述べる。
参考スコア（独自算出の注目度）: 35.572317113701516
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) now support context windows exceeding 128K tokens, but this comes with significant memory requirements and high inference latency. Quantization can mitigate these costs, but may degrade performance. In this work, we present the first systematic evaluation of quantized LLMs on tasks with long-inputs (>64K tokens) and long-form outputs. Our evaluation spans 9.7K test examples, five quantization methods (FP8, GPTQ-int8, AWQ-int4, GPTQ-int4, BNB-nf4), and five models (Llama-3.1 8B and 70B; Qwen-2.5 7B, 32B, and 72B). We find that, on average, 8-bit quantization preserves accuracy (~0.8% drop), whereas 4-bit methods lead to substantial losses, especially for tasks involving long context inputs (drops of up to 59%). This degradation tends to worsen when the input is in a language other than English. Crucially, the effects of quantization depend heavily on the quantization method, model, and task. For instance, while Qwen-2.5 72B remains robust under BNB-nf4, Llama-3.1 70B experiences a 32% performance drop on the same task. These findings highlight the importance of a careful, task-specific evaluation before deploying quantized LLMs, particularly in long-context scenarios and with languages other than English.
Abstract（参考訳）: 大きな言語モデル(LLM)は、128Kトークンを超えるコンテキストウィンドウをサポートするようになった。量子化はこれらのコストを軽減することができるが、性能を低下させる可能性がある。本研究では,長文(>64Kトークン)と長文出力のタスクに対して,量子化LDMを初めて体系的に評価する。評価対象は,9.7K試験例,5種類の量子化法(FP8, GPTQ-int8, AWQ-int4, GPTQ-int4, BNB-nf4),5種類のモデル(Llama-3.1 8B, 70B, Qwen-2.5 7B, 32B, 72B)である。平均8ビット量子化は精度(~0.8%の低下)を保っているのに対し、4ビット法は特に長期の文脈入力を含むタスク(最大59%)において大きな損失をもたらすことがわかった。この劣化は英語以外の言語での入力が悪化する傾向にある。重要なことに、量子化の効果は量子化法、モデル、タスクに大きく依存する。例えば、Qwen-2.5 72BはBNB-nf4で頑健だが、Llama-3.1 70Bは同じタスクで32%のパフォーマンス低下を経験している。これらの知見は、特に長文のシナリオや英語以外の言語で、量子化LDMをデプロイする前に、注意深いタスク固有の評価の重要性を強調している。

関連論文リスト

Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
An Empirical Study of Qwen3 Quantization [30.214896404069677]
低ビット量子化は有望な解であるが、Qwen3の性能への影響は未解明のままである。 Qwen3に適用された5つの古典的ポストトレーニング量子化手法を,1ビットから8ビットまでのビット幅で厳格に評価する。以上の結果から,Qwen3は適度なビット幅での競合性能を維持しながら,超低精度での言語タスクの顕著な劣化を経験していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-04T18:43:44Z)
Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文参考訳（メタデータ） (2025-04-10T02:19:03Z)
MBQ: Modality-Balanced Quantization for Large Vision-Language Models [20.018652727875367]
PTQ(Post-Training Quantization)は、メモリと計算オーバーヘッドを削減する効果的な手法である。既存のPTQ手法は主に大きな言語モデル(LLM)に焦点をあてるが、他のモダリティの相違は考慮しない。大規模な視覚言語モデルに対して,MBQ(Modality-Balanced Quantization)を提案する。
論文参考訳（メタデータ） (2024-12-27T07:55:36Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。 FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
Evaluating Quantized Large Language Models for Code Generation on Low-Resource Language Benchmarks [0.0]
本研究では,Lua符号生成タスクにおける5つの量子化符号LLMの性能を評価する。その結果, 4ビット整数精度で量子化されたモデルは, 性能とモデルサイズとの最良のトレードオフをもたらすことが示唆された。量子化は、70億のパラメータを持つ小さなLLMのアクセシビリティを高めるが、これらのLLMは全体的な低性能を示す。
論文参考訳（メタデータ） (2024-10-18T15:50:59Z)
LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文参考訳（メタデータ） (2024-07-14T00:23:51Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。 4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。 QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文参考訳（メタデータ） (2024-05-07T17:59:30Z)
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文参考訳（メタデータ） (2024-04-04T17:25:30Z)
FPTQ: Fine-grained Post-Training Quantization for Large Language Models [28.11564378745513]
利用可能なオープンソースLLMのための新しいW4A8ポストトレーニング量子化法を提案する。我々は,BLOOM,LLaMA,LLaMA-2における最先端のW4A8量子化性能を標準ベンチマークで取得する。
論文参考訳（メタデータ） (2023-08-30T12:18:18Z)
Analyzing Quantization in TVM [0.0]
TVMは重量を定量化し、低ビット計算をサポートする。 8ビットの量子化は通常、全精度推論時間の約50%を達成することが期待されている。本研究の目的は,TVMにおける8ビット量子化の互換性と最適化の機会を評価することにある。
論文参考訳（メタデータ） (2023-08-19T07:39:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。