論文の概要: KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language
Models via Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2109.06243v1
- Date: Mon, 13 Sep 2021 18:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 07:17:22.454182
- Title: KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language
Models via Knowledge Distillation
- Title(参考訳): KroneckerBERT:知識蒸留による事前学習言語モデルのKronecker分解学習
- Authors: Marzieh S. Tahaei, Ella Charlaix, Vahid Partovi Nia, Ali Ghodsi and
Mehdi Rezagholizadeh
- Abstract要約: 我々は、Kronecker分解を用いた、最先端のTransformerベースの事前学習言語モデル圧縮の限界を推し進める。
このフレームワークを用いて得られたBERT_BASEモデルの圧縮版であるKroneckerBERTを提案する。
実験の結果,提案モデルでは分布外ロバスト性を保証し,SQuADの最先端圧縮法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 5.8287955127529365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of over-parameterized pre-trained language models has made a
significant contribution toward the success of natural language processing.
While over-parameterization of these models is the key to their generalization
power, it makes them unsuitable for deployment on low-capacity devices. We push
the limits of state-of-the-art Transformer-based pre-trained language model
compression using Kronecker decomposition. We use this decomposition for
compression of the embedding layer, all linear mappings in the multi-head
attention, and the feed-forward network modules in the Transformer layer. We
perform intermediate-layer knowledge distillation using the uncompressed model
as the teacher to improve the performance of the compressed model. We present
our KroneckerBERT, a compressed version of the BERT_BASE model obtained using
this framework. We evaluate the performance of KroneckerBERT on well-known NLP
benchmarks and show that for a high compression factor of 19 (5% of the size of
the BERT_BASE model), our KroneckerBERT outperforms state-of-the-art
compression methods on the GLUE. Our experiments indicate that the proposed
model has promising out-of-distribution robustness and is superior to the
state-of-the-art compression methods on SQuAD.
- Abstract(参考訳): 過度にパラメータ化された事前学習言語モデルの開発は、自然言語処理の成功に大きく貢献している。
これらのモデルの過度パラメータ化がその一般化能力の鍵であるが、低容量デバイスへの展開には適さない。
我々は、クロネッカー分解を用いた最先端のトランスフォーマーベースの事前学習言語モデル圧縮の限界を押し上げる。
この分解を組込み層の圧縮、マルチヘッドアテンションにおけるリニアマッピング、トランスフォーワード層におけるフィードフォワードネットワークモジュールに利用する。
教師として非圧縮モデルを用いて中間層知識蒸留を行い,圧縮モデルの性能を向上させる。
このフレームワークを用いて得られたBERT_BASEモデルの圧縮版であるKroneckerBERTを提案する。
我々は、よく知られたNLPベンチマークにおけるKroneckerBERTの性能を評価し、高い圧縮係数19(BERT_BASEモデルの5%)に対して、我々のKroneckerBERTはGLUEの最先端圧縮手法より優れていることを示す。
実験の結果,提案モデルでは分布外ロバスト性を保証し,SQuADの最先端圧縮法よりも優れていることがわかった。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。
VBMFは各層における重みテンソルのランクを推定するために用いられる。
その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T06:40:34Z) - Unified Low-rank Compression Framework for Click-through Rate Prediction [15.813889566241539]
本稿では,CTR予測モデルを圧縮する低ランク分解フレームワークを提案する。
私たちのフレームワークはオリジナルのモデルよりも優れたパフォーマンスを実現できます。
我々のフレームワークは、様々なCTR予測モデルにテーブルやレイヤーを埋め込むのに利用できる。
論文 参考訳(メタデータ) (2024-05-28T13:06:32Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - Efficient Transformer-based Large Scale Language Representations using
Hardware-friendly Block Structured Pruning [12.761055946548437]
ハードウェアフレンドリーなブロック構造プルーニングを用いた,効率的なトランスフォーマーに基づく大規模言語表現を提案する。
重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。
リソース制約のあるエッジデバイスに最終的な圧縮モデルを展開するのに適している。
論文 参考訳(メタデータ) (2020-09-17T04:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。