論文の概要: When Quantization Affects Confidence of Large Language Models?
- arxiv url: http://arxiv.org/abs/2405.00632v1
- Date: Wed, 1 May 2024 16:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 15:07:37.606195
- Title: When Quantization Affects Confidence of Large Language Models?
- Title(参考訳): 量子化が大規模言語モデルの信頼性にいつ影響するか?
- Authors: Irina Proskurina, Luc Brun, Guillaume Metzler, Julien Velcin,
- Abstract要約: GPTQから4ビットへの変換は,言語モデルによって異なる影響で,真のラベルに対する信頼度を低下させることを示す。
本稿では,信頼度に基づく量子化損失の説明を行い,まず,完全モデルが信頼度が低いサンプルに対して,量子化が不均等に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 4.338589334157708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies introduced effective compression techniques for Large Language Models (LLMs) via post-training quantization or low-bit weight representation. Although quantized weights offer storage efficiency and allow for faster inference, existing works have indicated that quantization might compromise performance and exacerbate biases in LLMs. This study investigates the confidence and calibration of quantized models, considering factors such as language model type and scale as contributors to quantization loss. Firstly, we reveal that quantization with GPTQ to 4-bit results in a decrease in confidence regarding true labels, with varying impacts observed among different language models. Secondly, we observe fluctuations in the impact on confidence across different scales. Finally, we propose an explanation for quantization loss based on confidence levels, indicating that quantization disproportionately affects samples where the full model exhibited low confidence levels in the first place.
- Abstract(参考訳): 近年,Large Language Models (LLMs) に対して,学習後の量子化や低ビット重み表現による効率的な圧縮手法が提案されている。
量子化重みは記憶効率を向上し、より高速な推論を可能にするが、既存の研究は量子化が性能を損なう可能性を示し、LLMのバイアスを悪化させることを示唆している。
本研究では,量子化モデルの信頼性とキャリブレーションについて検討し,量子化損失の寄与要因として言語モデル型やスケールなどの因子を考察した。
まず,GPTQから4ビットへの量子化が真のラベルに対する信頼度を低下させることを示す。
第2に、異なる尺度における信頼への影響の変動を観察する。
最後に、信頼度に基づく量子化損失の説明を行い、量子化が不均等に、完全モデルがそもそも低い信頼度を示すサンプルに影響を及ぼすことを示す。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - Scaling laws for post-training quantized large language models [41.78467383320145]
良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。
後処理後圧縮後のLCMの品質は予測不可能であり,ケースバイケースの検証が必要となることが多い。
論文 参考訳(メタデータ) (2024-10-15T23:34:22Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - The Impact of Quantization on the Robustness of Transformer-based Text
Classifiers [5.281054432963503]
この研究は、NLPモデルのロバスト性に対する量子化の最初の応用である。
SST-2, Emotion, MRデータセットを用いたテキスト分類において, BERT モデルと DistilBERT モデルに対する量子化の影響を評価する。
実験の結果, 量子化は, 対向訓練と比較して平均18.80%の頑健さを増大させることがわかった。
論文 参考訳(メタデータ) (2024-03-08T14:55:05Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。
特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文 参考訳(メタデータ) (2022-07-20T10:55:34Z) - An Investigation on Different Underlying Quantization Schemes for
Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。
また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文 参考訳(メタデータ) (2020-10-14T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。