論文の概要: Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.02837v1
- Date: Wed, 3 Apr 2024 16:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 16:50:16.907923
- Title: Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models
- Title(参考訳): Cherry on Top:パラメータの不均一性と大規模言語モデルの量子化
- Authors: Wanyun Cui, Qianle Wang,
- Abstract要約: その結果,チェリーのパラメータの小さな部分集合がモデル性能に非常に大きな影響を与えていることが判明した。
混合精度パラメータの最適化を統一する新しい量子化法であるCherryQを提案する。
- 参考スコア(独自算出の注目度): 14.456571495691561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper reveals the phenomenon of parameter heterogeneity in large language models (LLMs). We find that a small subset of ``cherry'' parameters exhibit a disproportionately large influence on model performance, while the vast majority of parameters have minimal impact. This heterogeneity is found to be prevalent across different model families, scales, and types. Motivated by this observation, we propose CherryQ, a novel quantization method that unifies the optimization of mixed-precision parameters. CherryQ identifies and preserves the critical cherry parameters in high precision while aggressively quantizing the remaining parameters to low precision. Extensive experiments demonstrate the effectiveness of CherryQ. CherryQ outperforms existing quantization approaches in terms of perplexity and downstream task performance. Notably, our 3-bit quantized Vicuna-1.5 exhibits competitive performance compared to their 16-bit counterparts. These findings highlight the potential of CherryQ for enabling efficient deployment of LLMs by taking advantage of parameter heterogeneity.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)におけるパラメータの不均一性の現象を明らかにする。
パラメータの小さなサブセットがモデル性能に不均等に大きな影響を与えているのに対して、ほとんどのパラメータは最小限の影響しか与えていないことが分かりました。
この不均一性は、異なるモデルファミリ、スケール、タイプにまたがる。
この観測により,混合精度パラメータの最適化を統一する新しい量子化法であるCherryQを提案する。
CherryQは、重要なチェリーパラメータを高い精度で識別し、保存し、残りのパラメータを低い精度で積極的に定量化する。
大規模な実験はCherryQの有効性を示す。
CherryQは、パープレキシティとダウンストリームタスクのパフォーマンスの観点から、既存の量子化アプローチより優れている。
特に、我々の3ビット量子化Vicuna-1.5は16ビットに比べて競争力がある。
これらの結果は,パラメータの不均一性を生かしてLLMの効率的な展開を可能にするCherryQの可能性を強調した。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - A Three-regime Model of Network Pruning [47.92525418773768]
我々は、ニューラルネットワーク(NN)トレーニングのハイパーパラメータが刈り取り性能に与える影響をモデル化するために、温度のようなパラメータと負荷のようなパラメータを使用します。
プレプルーニングモデルにおける負荷様パラメータの値に依存すると、プレプルーニングモデルにおける温度様パラメータの値が増加するか、その後のプルーニング性能が向上または損なわれる可能性がある。
本モデルでは, 高温のダイコトモス効果は, ポストプランニングモデルにおいて, 異なるタイプの大域構造間の遷移と関係していることが明らかとなった。
論文 参考訳(メタデータ) (2023-05-28T08:09:25Z) - MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource
Visual Question Answering [66.05768870785548]
微調整事前学習型視覚言語モデル(VLM)は、視覚質問応答(VQA)における最先端性能を達成するための一般的なパラダイムである。
現在のパラメータ効率のチューニング手法は、チューニング可能なパラメータの数を劇的に削減するが、完全な微調整を伴う大きなパフォーマンスギャップは依然として残っている。
低リソースVQAにおける完全微調整よりも優れた冗長性を考慮したパラメータ効率調整法であるMixPHMを提案する。
論文 参考訳(メタデータ) (2023-03-02T13:28:50Z) - A Parameter Setting Heuristic for the Quantum Alternating Operator
Ansatz [0.0]
本稿では,問題の大きさに応じて異なるコスト値の数が増加する場合に適したパラメータ設定戦略を提案する。
我々は、完全均一性が正確に保持され、状態と期待値の両方を記述する情報が得られるQAOAの古典的同次プロキシを定義する。
最大3ドルのQAOAレベルでは、これまでのグローバルに最適化されたアプローチによって返される近似比にマッチするパラメータを容易に見つけることができます。
論文 参考訳(メタデータ) (2022-11-17T00:18:06Z) - Multi-objective hyperparameter optimization with performance uncertainty [62.997667081978825]
本稿では,機械学習アルゴリズムの評価における不確実性を考慮した多目的ハイパーパラメータ最適化の結果について述べる。
木構造型Parzen Estimator(TPE)のサンプリング戦略と、ガウス過程回帰(GPR)と異種雑音の訓練後に得られたメタモデルを組み合わせる。
3つの解析的テスト関数と3つのML問題の実験結果は、多目的TPEとGPRよりも改善したことを示している。
論文 参考訳(メタデータ) (2022-09-09T14:58:43Z) - Assessing the Effects of Hyperparameters on Knowledge Graph Embedding
Quality [2.5543596355145093]
我々は,異なるハイパーパラメータのチューニングが埋め込み品質のばらつきに与える影響を評価するために,ソボ感度解析を実行する。
このモデルを用いて,各ハイパーパラメータに対するソボ感度指標を生成することにより,これらのハイパーパラメータへの埋め込み品質を抑えた。
UMLS知識グラフには,逆関係によるデータ漏洩を引き起こす可能性のあるいくつかの関係を識別し,そのグラフの漏洩・損なわれた変種であるUMLS-43を導出・提示する。
論文 参考訳(メタデータ) (2022-07-01T14:53:16Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Parameter Concentration in Quantum Approximate Optimization [0.0]
最適QAOA回路パラメータは問題の大きさの逆として集中していることがわかった。
p=1,2$(それぞれ2パラメータと4パラメータに対応)の変動状態の準備について解析的に検討した。
論文 参考訳(メタデータ) (2021-03-22T16:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。