論文の概要: Scaling Laws for Task-Stratified Knowledge in Post-Training Quantized Large Language Models
- arxiv url: http://arxiv.org/abs/2508.18609v1
- Date: Tue, 26 Aug 2025 02:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.64205
- Title: Scaling Laws for Task-Stratified Knowledge in Post-Training Quantized Large Language Models
- Title(参考訳): 学習後量子化大言語モデルにおけるタスク抽出知識のスケーリング法則
- Authors: Chenxi Zhou, Pengfei Cao, Jiang Li, Jun Zhao, Kang Liu,
- Abstract要約: 後学習量子化(PTQ)は、大規模言語モデル(LLM)の実用的な圧縮ソリューションである。
量子化モデルの既存のスケーリング法則は、PTQ固有のパラメータやタスク固有の感度を無視することが多い。
本稿では,タスク階層化スケーリング法則の確立を実証的に検討することで,これらのギャップに対処する。
- 参考スコア(独自算出の注目度): 31.666361168937396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) present significant deployment challenges due to their scale, with post-training quantization (PTQ) emerging as a practical compression solution. However, a comprehensive understanding of how PTQ precisely impacts diverse LLM knowledge capabilities remains elusive, and existing scaling laws for quantized models often overlook crucial PTQ-specific parameters and task-specific sensitivities. This paper addresses these gaps by conducting an extensive empirical investigation to establish task-stratified scaling laws. We disentangle LLM knowledge into memorization and utilization capabilities and develop a unified quantitative framework that incorporates model size, effective bit-width, calibration set size, and group size. Our central finding reveals that knowledge memorization exhibits markedly greater sensitivity to variations in effective bit-width, calibration set size, and model size compared to the more robust knowledge utilization. These findings offer a fine-grained understanding of PTQ's impact and provide guidance for developing knowledge-aware quantization strategies that can better preserve targeted cognitive functions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その規模によって、実用的な圧縮ソリューションとしてポストトレーニング量子化(PTQ)が出現する、重大なデプロイメント上の課題を示す。
しかし、PTQが様々なLLM知識能力にどのように影響するかを包括的に理解し、量子化されたモデルに対する既存のスケーリング法則は、重要なPTQ固有のパラメータやタスク固有の感性を見落としていることが多い。
本稿では,タスク階層化スケーリング法則を確立するための広範な実証的研究を行うことにより,これらのギャップに対処する。
モデルサイズ,有効ビット幅,キャリブレーションセットサイズ,グループサイズを組み込んだ統一的な定量的フレームワークを開発した。
我々の中心的な発見は、知識記憶は、より堅牢な知識利用と比較して、効果的なビット幅、キャリブレーションセットサイズ、モデルサイズの変化に非常に敏感であることを示している。
これらの知見はPTQの影響を詳細に把握し、目標となる認知機能をよりよく保存できる知識を意識した量子化戦略を開発するためのガイダンスを提供する。
関連論文リスト
- Is Quantization a Deal-breaker? Empirical Insights from Large Code Models [7.182449176083625]
我々は、広く使われている2つのコードモデル、CodeLlamaとDeepSeekCoderにActivation-Aware Weight Quantization (AWQ)を適用し、JavaとPythonコードを生成する。
この結果から,量子化は機能的正当性を保持するだけでなく,開発者が求める重要な定性的なコード属性も保持する,堅牢な手法であることが判明した。
論文 参考訳(メタデータ) (2025-07-13T14:58:19Z) - Scaling Laws for Post Training Quantized Large Language Models [41.78467383320145]
良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。
後処理後圧縮後のLCMの品質は予測不可能であり,ケースバイケースの検証が必要となることが多い。
論文 参考訳(メタデータ) (2024-10-15T23:34:22Z) - Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview [4.166341398835636]
本稿では,モデルサイズ成長の必要性と影響を論じ,性能のメリットと計算課題,環境配慮について考察する。
ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の両方を含む、さまざまな量子化手法を探求する。
これらの手法が、アウトレーヤや重み付け、アクティベーション量子化といった問題にどのように対処するかを検討し、最終的には、より持続可能な大規模モデルのデプロイに寄与する。
論文 参考訳(メタデータ) (2024-09-18T02:35:00Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。