論文の概要: DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization
- arxiv url: http://arxiv.org/abs/2410.08666v1
- Date: Fri, 11 Oct 2024 09:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:35:12.948134
- Title: DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization
- Title(参考訳): DeltaDQ:グループワイドドロップアウトと分離量子化による微調整LDMの超高速デルタ圧縮
- Authors: Yanfeng Jiang, Zelan Yang, Bohua Chen, Shen Li, Yong Li, Tao Li,
- Abstract要約: 大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
- 参考スコア(独自算出の注目度): 17.501956455837707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models achieve exceptional performance on various downstream tasks through supervised fine-tuning. However, the diversity of downstream tasks and practical requirements makes deploying multiple full-parameter fine-tuned models challenging. Current methods that compress the delta weight struggle to achieve ultra-high compression, failing to minimize the deployment overhead. To address the above issue, we propose a novel distribution-driven delta compression framework DeltaDQ, which utilizes Group-wise Dropout and Separate Quantization to achieve ultra-high compression for the delta weight. We have observed that the matrix-computed intermediate results for the delta weight exhibit extremely small variance and min-max range characteristics, referred to as Balanced Intermediate Results. Exploiting this phenomenon, we introduce Group-wise Dropout to perform dropout on the delta weight using an optimal group size. Furthermore, using Separate Quantization, sparse weights are quantized and decomposed to achieve a lower bit. Experimental results show that DeltaDQ achieves 16x compression with improved accuracy compared to baselines for WizardMath and WizardCoder models across different parameter scales. Moreover, DeltaDQ demonstrates the ability for ultra-high compression ratio, achieving 128x compression for the WizardMath-7B model and 512x compression for the WizardMath-70B model.
- Abstract(参考訳): 大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
しかし、下流のタスクと実践的な要件の多様性により、複数のフルパラメータの微調整モデルのデプロイが困難になる。
デルタ重量を圧縮する現在の方法は、超高圧縮を達成するのに苦労し、配置オーバーヘッドを最小限に抑えられなかった。
以上の課題に対処するために,グループワイドドロップアウトと分離量子化を用いてデルタ重みの超高圧縮を実現する,分散駆動型デルタ圧縮フレームワークDeltaDQを提案する。
その結果, デルタ重みの行列計算による中間結果は, 極端に小さなばらつきとmin-max範囲特性を示し, バランスド中間結果と呼ばれる結果を得た。
この現象を解き明かすため,グループワイド・ドロップアウトを導入し,最適なグループサイズを用いてデルタ重みのドロップアウトを行う。
さらに、分離量子化を用いてスパース重みを量子化し、分解して低ビットを実現する。
実験結果から,DeltaDQはパラメータスケールの異なるWizardMathモデルとWizardCoderモデルのベースラインと比較して,精度良く16倍の圧縮を実現していることがわかった。
さらに、DeltaDQは超高圧縮比を示し、WizardMath-7Bモデルでは128倍、WizardMath-70Bモデルでは512倍の圧縮を実現している。
関連論文リスト
- EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [79.56709262189953]
EoRAは、圧縮されたLLaMA2/3モデルの様々なタスクにおけるエラーを補償する従来の手法より一貫して優れている。
EoRAは、圧縮エラーを補うスケーラブルでトレーニング不要なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - BitDelta: Your Fine-Tune May Only Be Worth One Bit [57.558376557639555]
大規模言語モデル(LLM)は通常、大規模なインターネットスケールデータセットの事前トレーニングと、下流タスクの微調整という2つのフェーズでトレーニングされる。
我々は,このデルタを1ビットまで量子化する簡単な手法BitDeltaを導入し,性能を損なうことなく実現した。
複数の1ビットデルタを伴う1つの高精度ベースモデルを使用することで、BitDeltaはGPUメモリの要求を劇的に10倍に削減する。
論文 参考訳(メタデータ) (2024-02-15T18:50:06Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - DeltaZip: Efficient Serving of Multiple Full-Model-Tuned LLMs [7.1597349516197655]
微調整された大型言語モデル(LLM)は、下流タスクのモデル品質を大幅に改善する。
散発的、バースト的、およびさまざまな要求パターンのために、多くの微調整のLLMを同時に提供することは難しい。
DeltaZipは,複数パラメータの微調整モデルを並列に処理するLLMサービスシステムである。
論文 参考訳(メタデータ) (2023-12-08T18:07:05Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Inshrinkerator: Compressing Deep Learning Training Checkpoints via Dynamic Quantization [5.648270790530862]
最先端のアプローチには、結果のモデル品質(精度)と圧縮比とのトレードオフを引き起こす、損失のあるモデル圧縮機構が含まれる。
モデル重みの圧縮に対する感度がトレーニング中に変化し、異なる重みが異なる量子化レベルから恩恵を受けることを重要視する。
本稿では,この変動を利用した非一様量子化手法,最適な量子化構成を動的に見つける効率的な探索機構,重みを再構成してチェックポイント差を最小限に抑える量子化対応デルタ圧縮機構を提案する。
論文 参考訳(メタデータ) (2023-06-20T18:00:31Z) - Compressing Transformer-based self-supervised models for speech
processing [45.254624876127124]
本稿では,重量刈り,頭部刈り,低ランク近似,知識蒸留など,一般的な圧縮技術について検討する。
ウォールクロック時間,パラメータ数,乗算演算数など,さまざまな圧縮速度でトレードオフを報告する。
この結果から,最近の手法とのトレードオフを改善する圧縮手法の簡単な組み合わせが導かれる。
論文 参考訳(メタデータ) (2022-11-17T23:53:52Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。