Fugu-MT 論文翻訳(概要): Scaling laws for post-training quantized large language models

論文の概要: Scaling laws for post-training quantized large language models

arxiv url: http://arxiv.org/abs/2410.12119v2
Date: Thu, 17 Oct 2024 22:40:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.078021
Title: Scaling laws for post-training quantized large language models
Title（参考訳）: 学習後量子化大言語モデルのスケーリング法則
Authors: Zifei Xu, Alexander Lan, Wanzin Yazar, Tristan Webb, Sayeh Sharify, Xin Wang,
Abstract要約: 良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。後処理後圧縮後のLCMの品質は予測不可能であり,ケースバイケースの検証が必要となることが多い。
参考スコア（独自算出の注目度）: 41.78467383320145
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Generalization abilities of well-trained large language models (LLMs) are known to scale predictably as a function of model size. In contrast to the existence of practical scaling laws governing pre-training, the quality of LLMs after post-training compression remains highly unpredictable, often requiring case-by-case validation in practice. In this work, we attempted to close this gap for post-training weight quantization of LLMs by conducting a systematic empirical study on multiple LLM families quantized to numerous low-precision tensor data types using popular weight quantization techniques. We identified key scaling factors pertaining to characteristics of the local loss landscape, based on which the performance of quantized LLMs can be reasonably well predicted by a statistical model.
Abstract（参考訳）: 良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。事前訓練を規制する実践的スケーリング法の存在とは対照的に,後処理後のLLMの品質は予測不可能であり,ケース・バイ・ケース・バイ・ケース・バリデーションが要求されることが多い。本研究では, LLMの重み量子化後処理におけるこのギャップを解消するために, 一般的な重み量子化手法を用いて, 多数の低精度テンソルデータタイプに量子化された複数のLLMファミリーの系統的研究を行った。局所的な損失景観の特徴に関連する重要なスケーリング要因を,統計的モデルにより定量的LLMの性能を合理的に予測できる点に基づいて同定した。

関連論文リスト

Scaling Laws for Task-Stratified Knowledge in Post-Training Quantized Large Language Models [31.666361168937396]
後学習量子化(PTQ)は、大規模言語モデル(LLM)の実用的な圧縮ソリューションである。量子化モデルの既存のスケーリング法則は、PTQ固有のパラメータやタスク固有の感度を無視することが多い。本稿では,タスク階層化スケーリング法則の確立を実証的に検討することで,これらのギャップに対処する。
論文参考訳（メタデータ） (2025-08-26T02:24:55Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Scaling Law for Language Models Training Considering Batch Size [17.09348741898811]
大規模言語モデル(LLM)は近年顕著な進歩を遂げており、この急速な進歩においてスケーリング法則が重要な役割を担っている。本稿は,LLMトレーニングの実践において,重要なハイパーパラメータ,すなわちグローバルバッチサイズがどのように影響するかを実証的に検討する。モデルのサイズとトレーニングデータ量に関する基本的なスケーリング法則を確立します。次に,バッチサイズや学習率の変化が,これらのモデルの収束と一般化にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-12-02T13:58:35Z)
A Comprehensive Study on Quantization Techniques for Large Language Models [0.0]
大規模言語モデル(LLM)は、学術と産業の両方で広く研究され、利用されている。 LLMは、リソースに制約のあるIoTデバイスや組み込みシステムにデプロイする上で、重大な課題を提示している。量子化(Quantization)は、モデルの値の精度を小さな離散値のセットに縮める技術であり、有望な解決策を提供する。
論文参考訳（メタデータ） (2024-10-30T04:55:26Z)
Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文参考訳（メタデータ） (2024-08-07T12:42:09Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-26T17:45:36Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文参考訳（メタデータ） (2023-09-29T14:35:27Z)
Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文参考訳（メタデータ） (2023-07-16T15:11:01Z)
PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。 PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。 BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文参考訳（メタデータ） (2023-05-30T08:41:33Z)
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文参考訳（メタデータ） (2023-05-29T05:22:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。