論文の概要: Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.02837v1
- Date: Wed, 3 Apr 2024 16:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 16:50:16.907923
- Title: Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models
- Title(参考訳): Cherry on Top:パラメータの不均一性と大規模言語モデルの量子化
- Authors: Wanyun Cui, Qianle Wang,
- Abstract要約: その結果,チェリーのパラメータの小さな部分集合がモデル性能に非常に大きな影響を与えていることが判明した。
混合精度パラメータの最適化を統一する新しい量子化法であるCherryQを提案する。
- 参考スコア(独自算出の注目度): 14.456571495691561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper reveals the phenomenon of parameter heterogeneity in large language models (LLMs). We find that a small subset of ``cherry'' parameters exhibit a disproportionately large influence on model performance, while the vast majority of parameters have minimal impact. This heterogeneity is found to be prevalent across different model families, scales, and types. Motivated by this observation, we propose CherryQ, a novel quantization method that unifies the optimization of mixed-precision parameters. CherryQ identifies and preserves the critical cherry parameters in high precision while aggressively quantizing the remaining parameters to low precision. Extensive experiments demonstrate the effectiveness of CherryQ. CherryQ outperforms existing quantization approaches in terms of perplexity and downstream task performance. Notably, our 3-bit quantized Vicuna-1.5 exhibits competitive performance compared to their 16-bit counterparts. These findings highlight the potential of CherryQ for enabling efficient deployment of LLMs by taking advantage of parameter heterogeneity.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)におけるパラメータの不均一性の現象を明らかにする。
パラメータの小さなサブセットがモデル性能に不均等に大きな影響を与えているのに対して、ほとんどのパラメータは最小限の影響しか与えていないことが分かりました。
この不均一性は、異なるモデルファミリ、スケール、タイプにまたがる。
この観測により,混合精度パラメータの最適化を統一する新しい量子化法であるCherryQを提案する。
CherryQは、重要なチェリーパラメータを高い精度で識別し、保存し、残りのパラメータを低い精度で積極的に定量化する。
大規模な実験はCherryQの有効性を示す。
CherryQは、パープレキシティとダウンストリームタスクのパフォーマンスの観点から、既存の量子化アプローチより優れている。
特に、我々の3ビット量子化Vicuna-1.5は16ビットに比べて競争力がある。
これらの結果は,パラメータの不均一性を生かしてLLMの効率的な展開を可能にするCherryQの可能性を強調した。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource
Visual Question Answering [66.05768870785548]
微調整事前学習型視覚言語モデル(VLM)は、視覚質問応答(VQA)における最先端性能を達成するための一般的なパラダイムである。
現在のパラメータ効率のチューニング手法は、チューニング可能なパラメータの数を劇的に削減するが、完全な微調整を伴う大きなパフォーマンスギャップは依然として残っている。
低リソースVQAにおける完全微調整よりも優れた冗長性を考慮したパラメータ効率調整法であるMixPHMを提案する。
論文 参考訳(メタデータ) (2023-03-02T13:28:50Z) - A Parameter Setting Heuristic for the Quantum Alternating Operator
Ansatz [0.0]
本稿では,問題の大きさに応じて異なるコスト値の数が増加する場合に適したパラメータ設定戦略を提案する。
我々は、完全均一性が正確に保持され、状態と期待値の両方を記述する情報が得られるQAOAの古典的同次プロキシを定義する。
最大3ドルのQAOAレベルでは、これまでのグローバルに最適化されたアプローチによって返される近似比にマッチするパラメータを容易に見つけることができます。
論文 参考訳(メタデータ) (2022-11-17T00:18:06Z) - Assessing the Effects of Hyperparameters on Knowledge Graph Embedding
Quality [2.5543596355145093]
我々は,異なるハイパーパラメータのチューニングが埋め込み品質のばらつきに与える影響を評価するために,ソボ感度解析を実行する。
このモデルを用いて,各ハイパーパラメータに対するソボ感度指標を生成することにより,これらのハイパーパラメータへの埋め込み品質を抑えた。
UMLS知識グラフには,逆関係によるデータ漏洩を引き起こす可能性のあるいくつかの関係を識別し,そのグラフの漏洩・損なわれた変種であるUMLS-43を導出・提示する。
論文 参考訳(メタデータ) (2022-07-01T14:53:16Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Parameter Concentration in Quantum Approximate Optimization [0.0]
最適QAOA回路パラメータは問題の大きさの逆として集中していることがわかった。
p=1,2$(それぞれ2パラメータと4パラメータに対応)の変動状態の準備について解析的に検討した。
論文 参考訳(メタデータ) (2021-03-22T16:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。