論文の概要: Towards Efficient Post-training Quantization of Pre-trained Language
Models
- arxiv url: http://arxiv.org/abs/2109.15082v1
- Date: Thu, 30 Sep 2021 12:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:55:31.051826
- Title: Towards Efficient Post-training Quantization of Pre-trained Language
Models
- Title(参考訳): 事前学習言語モデルの学習後効率的な量子化に向けて
- Authors: Haoli Bai, Lu Hou, Lifeng Shang, Xin Jiang, Irwin King, Michael R. Lyu
- Abstract要約: PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 85.68317334241287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network quantization has gained increasing attention with the rapid growth of
large pre-trained language models~(PLMs). However, most existing quantization
methods for PLMs follow quantization-aware training~(QAT) that requires
end-to-end training with full access to the entire dataset. Therefore, they
suffer from slow training, large memory overhead, and data security issues. In
this paper, we study post-training quantization~(PTQ) of PLMs, and propose
module-wise quantization error minimization~(MREM), an efficient solution to
mitigate these issues. By partitioning the PLM into multiple modules, we
minimize the reconstruction error incurred by quantization for each module. In
addition, we design a new model parallel training strategy such that each
module can be trained locally on separate computing devices without waiting for
preceding modules, which brings nearly the theoretical training speed-up (e.g.,
$4\times$ on $4$ GPUs). Experiments on GLUE and SQuAD benchmarks show that our
proposed PTQ solution not only performs close to QAT, but also enjoys
significant reductions in training time, memory overhead, and data consumption.
- Abstract(参考訳): ネットワーク量子化は、大規模事前学習言語モデル(PLM)の急速な成長に伴い注目されている。
しかしながら、PLMの既存の量子化手法のほとんどは、データセット全体への完全なアクセスを伴うエンドツーエンドのトレーニングを必要とする量子化対応トレーニング~(QAT)に従っている。
そのため、トレーニングの遅さ、大きなメモリオーバヘッド、データセキュリティの問題に苦しむ。
本稿では,PLMの学習後の量子化〜(PTQ)について検討し,モジュール単位の量子化誤差最小化〜(MREM)を提案する。
PLMを複数のモジュールに分割することにより、各モジュールの量子化による再構成誤差を最小限に抑える。
さらに,先行するモジュールを待たずに,各モジュールを個別のコンピュータデバイス上でローカルにトレーニングできるように,新たなモデル並列トレーニング戦略を設計した(例えば,4ドルのgpuで$4\times$)。
実験の結果,提案するptqソリューションはqatに近い性能を示すだけでなく,トレーニング時間,メモリオーバーヘッド,データ消費の大幅な削減が期待できることがわかった。
関連論文リスト
- EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs [10.385919320080017]
大規模言語モデルのためのトレーニング不要かつデータ非依存な重みのみ量子化アルゴリズムであるEasyQuantを提案する。
EasyQuantはオリジナルのモデルに匹敵するパフォーマンスを実現している。
我々のアルゴリズムはデータ依存手法の10倍以上の速度で動作します。
論文 参考訳(メタデータ) (2024-03-05T08:45:30Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。
重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。
我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文 参考訳(メタデータ) (2023-05-29T05:22:11Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs
Simultaneously Instead of One [82.91940450061445]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - A Transferable Approach for Partitioning Machine Learning Models on
Multi-Chip-Modules [8.224904698490626]
マルチチップモジュール(MCM)は、機械学習アクセラレータの設計と製造コストを削減する。
本稿では, 深い強化学習フレームワークを用いて, 潜在的に無効な候補分割を出力し, 制約解法によって補正する戦略を提案する。
実ハードウェア上でのプロダクションスケールモデルBERTの評価により,RLポリシを用いて生成したパーティショニングのスループットが6.11%,5.85%向上したことが明らかとなった。
論文 参考訳(メタデータ) (2021-12-07T23:40:28Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。