Fugu-MT 論文翻訳(概要): KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with Learned Step Size Quantization

論文の概要: KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with Learned Step Size Quantization

arxiv url: http://arxiv.org/abs/2101.05938v1
Date: Fri, 15 Jan 2021 02:21:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-28 11:29:06.496926
Title: KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with Learned Step Size Quantization
Title（参考訳）: KDLSQ-BERT:知識蒸留と学習ステップサイズ量子化を組み合わせた量子ベルト
Authors: Jing Jin, Cai Liang, Tiancheng Wu, Liqin Zou, Zhiliang Gan
Abstract要約: BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
参考スコア（独自算出の注目度）: 1.9786767260073905
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recently, transformer-based language models such as BERT have shown tremendous performance improvement for a range of natural language processing tasks. However, these language models usually are computation expensive and memory intensive during inference. As a result, it is difficult to deploy them on resource-restricted devices. To improve the inference performance, as well as reduce the model size while maintaining the model accuracy, we propose a novel quantization method named KDLSQ-BERT that combines knowledge distillation (KD) with learned step size quantization (LSQ) for language model quantization. The main idea of our method is that the KD technique is leveraged to transfer the knowledge from a "teacher" model to a "student" model when exploiting LSQ to quantize that "student" model during the quantization training process. Extensive experiment results on GLUE benchmark and SQuAD demonstrate that our proposed KDLSQ-BERT not only performs effectively when doing different bit (e.g. 2-bit $\sim$ 8-bit) quantization, but also outperforms the existing BERT quantization methods, and even achieves comparable performance as the full-precision base-line model while obtaining 14.9x compression ratio. Our code will be public available.
Abstract（参考訳）: 近年,BERTのようなトランスフォーマーベースの言語モデルでは,自然言語処理タスクの処理性能が大幅に向上している。しかし、これらの言語モデルは一般的に計算コストが高く、推論中にメモリが集中する。その結果、リソース制限されたデバイスにデプロイすることは困難である。モデル精度を維持しつつモデルサイズを小さくし、推論性能を向上させるため、言語モデル量子化のための知識蒸留(kd)と学習ステップサイズ量子化(lsq)を組み合わせたkdlsq-bertという新しい量子化法を提案する。本手法の主な考え方は、量子化学習過程において、LSQを利用して「学習者」モデルから「学習者」モデルへ知識を伝達するために、KD手法を利用することである。 GLUEベンチマークとSQuADの大規模な実験結果から、提案したKDLSQ-BERTは、異なるビット(例えば、)を実行する場合にのみ有効であることを示す。 2-bit $\sim$ 8-bit) 量子化は既存のBERT量子化法よりも優れており、14.9倍の圧縮比を得ながら、完全精度のベースラインモデルと同等のパフォーマンスを達成している。私たちのコードは公開されます。

関連論文リスト

Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-14T19:31:21Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models [6.936564049727831]
本稿では,蓄積量子化誤差を最小化し,ベースラインを上回り,自己蒸留量子化法(SDQ)を提案する。 SDQを多言語モデル XLM-R-Base とInfoXLM-Base に適用し、両モデルが32ビット浮動小数点重みから8ビット整数重みに還元可能であることを示す。
論文参考訳（メタデータ） (2023-07-12T07:38:24Z)
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文参考訳（メタデータ） (2023-05-29T05:22:11Z)
RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文参考訳（メタデータ） (2023-05-24T19:45:56Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)
Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-30T06:32:47Z)
An Investigation on Different Underlying Quantization Schemes for Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文参考訳（メタデータ） (2020-10-14T14:05:06Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。