論文の概要: Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.02837v1
- Date: Wed, 3 Apr 2024 16:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 16:50:16.907923
- Title: Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models
- Title(参考訳): Cherry on Top:パラメータの不均一性と大規模言語モデルの量子化
- Authors: Wanyun Cui, Qianle Wang,
- Abstract要約: その結果,チェリーのパラメータの小さな部分集合がモデル性能に非常に大きな影響を与えていることが判明した。
混合精度パラメータの最適化を統一する新しい量子化法であるCherryQを提案する。
- 参考スコア(独自算出の注目度): 14.456571495691561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper reveals the phenomenon of parameter heterogeneity in large language models (LLMs). We find that a small subset of ``cherry'' parameters exhibit a disproportionately large influence on model performance, while the vast majority of parameters have minimal impact. This heterogeneity is found to be prevalent across different model families, scales, and types. Motivated by this observation, we propose CherryQ, a novel quantization method that unifies the optimization of mixed-precision parameters. CherryQ identifies and preserves the critical cherry parameters in high precision while aggressively quantizing the remaining parameters to low precision. Extensive experiments demonstrate the effectiveness of CherryQ. CherryQ outperforms existing quantization approaches in terms of perplexity and downstream task performance. Notably, our 3-bit quantized Vicuna-1.5 exhibits competitive performance compared to their 16-bit counterparts. These findings highlight the potential of CherryQ for enabling efficient deployment of LLMs by taking advantage of parameter heterogeneity.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)におけるパラメータの不均一性の現象を明らかにする。
パラメータの小さなサブセットがモデル性能に不均等に大きな影響を与えているのに対して、ほとんどのパラメータは最小限の影響しか与えていないことが分かりました。
この不均一性は、異なるモデルファミリ、スケール、タイプにまたがる。
この観測により,混合精度パラメータの最適化を統一する新しい量子化法であるCherryQを提案する。
CherryQは、重要なチェリーパラメータを高い精度で識別し、保存し、残りのパラメータを低い精度で積極的に定量化する。
大規模な実験はCherryQの有効性を示す。
CherryQは、パープレキシティとダウンストリームタスクのパフォーマンスの観点から、既存の量子化アプローチより優れている。
特に、我々の3ビット量子化Vicuna-1.5は16ビットに比べて競争力がある。
これらの結果は,パラメータの不均一性を生かしてLLMの効率的な展開を可能にするCherryQの可能性を強調した。
関連論文リスト
- Optimizing Hyperparameters for Quantum Data Re-Uploaders in Calorimetric Particle Identification [11.099632666738177]
本稿では,1量子ビットデータ再アップロード(QRU)量子モデルの粒子分類への応用について述べる。
このモデルは、強力な分類性能を提供しながら、最小の量子ビットを必要とする。
論文 参考訳(メタデータ) (2024-12-16T23:10:00Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - A Three-regime Model of Network Pruning [47.92525418773768]
我々は、ニューラルネットワーク(NN)トレーニングのハイパーパラメータが刈り取り性能に与える影響をモデル化するために、温度のようなパラメータと負荷のようなパラメータを使用します。
プレプルーニングモデルにおける負荷様パラメータの値に依存すると、プレプルーニングモデルにおける温度様パラメータの値が増加するか、その後のプルーニング性能が向上または損なわれる可能性がある。
本モデルでは, 高温のダイコトモス効果は, ポストプランニングモデルにおいて, 異なるタイプの大域構造間の遷移と関係していることが明らかとなった。
論文 参考訳(メタデータ) (2023-05-28T08:09:25Z) - MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource
Visual Question Answering [66.05768870785548]
微調整事前学習型視覚言語モデル(VLM)は、視覚質問応答(VQA)における最先端性能を達成するための一般的なパラダイムである。
現在のパラメータ効率のチューニング手法は、チューニング可能なパラメータの数を劇的に削減するが、完全な微調整を伴う大きなパフォーマンスギャップは依然として残っている。
低リソースVQAにおける完全微調整よりも優れた冗長性を考慮したパラメータ効率調整法であるMixPHMを提案する。
論文 参考訳(メタデータ) (2023-03-02T13:28:50Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Parameter Concentration in Quantum Approximate Optimization [0.0]
最適QAOA回路パラメータは問題の大きさの逆として集中していることがわかった。
p=1,2$(それぞれ2パラメータと4パラメータに対応)の変動状態の準備について解析的に検討した。
論文 参考訳(メタデータ) (2021-03-22T16:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。