Fugu-MT 論文翻訳(概要): Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models

論文の概要: Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models

arxiv url: http://arxiv.org/abs/2307.05972v1
Date: Wed, 12 Jul 2023 07:38:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 14:00:39.089915
Title: Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models
Title（参考訳）: 自己蒸留量子化:トランスフォーマー言語モデルにおける高い圧縮率を達成する
Authors: James O' Neill and Sourav Dutta
Abstract要約: 本稿では,蓄積量子化誤差を最小化し,ベースラインを上回り,自己蒸留量子化法(SDQ)を提案する。 SDQを多言語モデル XLM-R-Base とInfoXLM-Base に適用し、両モデルが32ビット浮動小数点重みから8ビット整数重みに還元可能であることを示す。
参考スコア（独自算出の注目度）: 6.936564049727831
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the effects of post-training quantization and quantization-aware training on the generalization of Transformer language models. We present a new method called self-distilled quantization (SDQ) that minimizes accumulative quantization errors and outperforms baselines. We apply SDQ to multilingual models XLM-R-Base and InfoXLM-Base and demonstrate that both models can be reduced from 32-bit floating point weights to 8-bit integer weights while maintaining a high level of performance on the XGLUE benchmark. Our results also highlight the challenges of quantizing multilingual models, which must generalize to languages they were not fine-tuned on.
Abstract（参考訳）: ポストトレーニング量子化と量子化アウェアトレーニングがトランスフォーマー言語モデルの一般化に及ぼす影響について検討した。本稿では,累積量子化誤差を最小化し,ベースラインを上回る自己蒸留量子化法(sdq)を提案する。 SDQを多言語モデル XLM-R-Base および InfoXLM-Base に適用し,XGLUE ベンチマークにおいて高い性能を維持しながら,両モデルが32ビット浮動小数点重から8ビット整数重に削減可能であることを示す。また, 微調整されていない言語に一般化しなければならない多言語モデルの定量化の課題についても強調した。

関連論文リスト

Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文参考訳（メタデータ） (2024-08-07T12:42:09Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Post Training Quantization of Large Language Models with Microscaling Formats [4.736634198230005]
SmoothQuant, AWQ, GPTQの3つの有名なポストトレーニング手法の併用について検討した。異なるPTQ手法を組み合わせることで、4ビットの重みと8ビットのアクティベーションにモデルを量子化できることを示す。
論文参考訳（メタデータ） (2024-05-12T02:15:26Z)
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文参考訳（メタデータ） (2024-04-04T17:25:30Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文参考訳（メタデータ） (2023-11-02T15:18:22Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文参考訳（メタデータ） (2023-05-29T05:22:11Z)
Towards Efficient Post-training Quantization of Pre-trained Language Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。 GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文参考訳（メタデータ） (2021-09-30T12:50:06Z)
KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文参考訳（メタデータ） (2021-01-15T02:21:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。