論文の概要: Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs
- arxiv url: http://arxiv.org/abs/2405.20835v3
- Date: Wed, 5 Jun 2024 09:53:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 12:09:17.646537
- Title: Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs
- Title(参考訳): 近代LLMの量子化に及ぼす外乱と校正セットの影響
- Authors: Davide Paglieri, Saurabh Dash, Tim Rocktäschel, Jack Parker-Holder,
- Abstract要約: 学習後量子化(PTQ)は大規模言語モデル(LLM)の効率を向上させる
PTQにおける校正セットの役割,特に隠れ活性化に対する効果について検討する。
我々の分析では、利用可能なモデル間で量子化の有効性に顕著なコントラストが示される。
- 参考スコア(独自算出の注目度): 27.38239289662178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-Training Quantization (PTQ) enhances the efficiency of Large Language Models (LLMs) by enabling faster operation and compatibility with more accessible hardware through reduced memory usage, at the cost of small performance drops. We explore the role of calibration sets in PTQ, specifically their effect on hidden activations in various notable open-source LLMs. Calibration sets are crucial for evaluating activation magnitudes and identifying outliers, which can distort the quantization range and negatively impact performance. Our analysis reveals a marked contrast in quantization effectiveness across models. The older OPT model, upon which much of the quantization literature is based, shows significant performance deterioration and high susceptibility to outliers with varying calibration sets. In contrast, newer models like Llama-2 7B, Llama-3 8B, Command-R 35B, and Mistral 7B demonstrate strong robustness, with Mistral 7B showing near-immunity to outliers and stable activations. These findings suggest a shift in PTQ strategies might be needed. As advancements in pre-training methods reduce the relevance of outliers, there is an emerging need to reassess the fundamentals of current quantization literature. The emphasis should pivot towards optimizing inference speed, rather than primarily focusing on outlier preservation, to align with the evolving characteristics of state-of-the-art LLMs.
- Abstract(参考訳): PTQ(Post-Training Quantization)は、メモリ使用量を減らすことで、より高速な操作と、よりアクセスしやすいハードウェアとの互換性を実現することで、パフォーマンス低下のコストで、Large Language Models(LLMs)の効率を向上させる。
PTQにおけるキャリブレーションセットの役割,特に各種オープンソースLCMにおける隠れアクティベーションへの影響について検討する。
キャリブレーションセットは、アクティベーションの規模を評価して、量子化範囲を歪め、性能に悪影響を及ぼすような外れ値を特定するのに不可欠である。
我々の分析では、モデル間で量子化の有効性が顕著に比較されている。
量子化文献の大部分をベースとした古いOPTモデルでは, キャリブレーションセットの異なる外れ値に対して, 顕著な性能劣化と高い感受性を示す。
対照的に、Llama-2 7B、Llama-3 8B、Command-R 35B、Mistral 7Bといった新しいモデルは強い堅牢性を示し、Mistral 7Bは外れ値と安定した活性化を示す。
これらの結果はPTQ戦略の転換が必要であることを示唆している。
事前学習手法の進歩により、外れ値の関連性が低下するにつれ、現在の量子化文学の基礎を再評価する必要性が高まっている。
現状のLDMの進化する特性に合わせるために、主にアウターリー保存に焦点を当てるのではなく、推論速度の最適化に重点を置くべきである。
関連論文リスト
- A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - How Does Calibration Data Affect the Post-training Pruning and
Quantization of Large Language Models? [42.652021176354644]
プルーニングと量子化は、ニューラルネットワークのモデル圧縮の基礎となる。
モデル圧縮法におけるキャリブレーションデータの効果に関する実験的検討を行った。
論文 参考訳(メタデータ) (2023-11-16T10:30:00Z) - LitCab: Lightweight Language Model Calibration over Short- and Long-form
Responses [14.77013588561901]
本稿では,入力テキストの表現とバイアス項の予測を行う単一線形層からなる軽量キャリブレーション機構LitCabを提案する。
評価のために、8つのテキスト生成タスクからなるベンチマークであるCaTを構築し、短いフレーズから段落までの応答をカバーする。
Llama2-7BでLitCabをテストし、すべてのタスクのキャリブレーションを改善し、平均ECEスコアを最大30%削減する。
論文 参考訳(メタデータ) (2023-10-30T00:30:34Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。