論文の概要: Exploring Extreme Parameter Compression for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2205.10036v1
- Date: Fri, 20 May 2022 09:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 02:10:39.890193
- Title: Exploring Extreme Parameter Compression for Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルに対する極端パラメータ圧縮の探索
- Authors: Yuxin Ren, Benyou Wang, Lifeng Shang, Xin Jiang, Qun Liu
- Abstract要約: 本研究は,事前学習言語モデル(PLM)の圧縮率の増大について検討する。
圧縮時の効率と効率を改善するために, 2つの分解・再構成プロトコルを提案する。
小さなバージョンではBERTベースが96.7%、エンコーダパラメータが1/48、推論が2.7倍高速になる。
- 参考スコア(独自算出の注目度): 45.80044281531393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work explored the potential of large-scale Transformer-based
pre-trained models, especially Pre-trained Language Models (PLMs) in natural
language processing. This raises many concerns from various perspectives, e.g.,
financial costs and carbon emissions. Compressing PLMs like BERT with
negligible performance loss for faster inference and cheaper deployment has
attracted much attention. In this work, we aim to explore larger compression
ratios for PLMs, among which tensor decomposition is a potential but
under-investigated one. Two decomposition and reconstruction protocols are
further proposed to improve the effectiveness and efficiency during
compression. Our compressed BERT with ${1}/{7}$ parameters in Transformer
layers performs on-par with, sometimes slightly better than the original BERT
in GLUE benchmark. A tiny version achieves $96.7\%$ performance of BERT-base
with $ {1}/{48} $ encoder parameters (i.e., less than 2M parameters excluding
the embedding layer) and $2.7 \times$ faster on inference. To show that the
proposed method is orthogonal to existing compression methods like knowledge
distillation, we also explore the benefit of the proposed method on a distilled
BERT.
- Abstract(参考訳): 最近の研究は、自然言語処理における大規模なトランスフォーマーベースの事前学習モデル、特に事前学習言語モデル(plm)の可能性を検討した。
これは金融コストや二酸化炭素排出量といった様々な観点から多くの懸念を提起する。
BERTのような圧縮PLMは、高速な推論とより安価なデプロイメントのために、無視可能なパフォーマンス損失を持つ。
本研究では, PLM の圧縮比を増大させることを目標とし, テンソル分解はポテンシャルであるが, 未検討である。
圧縮時の効率と効率を改善するため、2つの分解・再構成プロトコルが提案されている。
Transformer層で${1}/{7}$パラメータを圧縮したBERTは、GLUEベンチマークでオリジナルのBERTよりも若干良い場合があります。
小さなバージョンは、$ {1}/{48} $ encoderパラメータ(埋め込み層を除く200M未満のパラメータ)と推論で2.7 \times$高速なBERT-baseのパフォーマンスを96.7\%で達成している。
提案手法が知識蒸留などの既存の圧縮手法と直交することを示すために, 蒸留bertにおける提案手法の利点についても検討する。
関連論文リスト
- PGB: One-Shot Pruning for BERT via Weight Grouping and Permutation [5.888489927450056]
本稿では,BERT$(PGB)に対する$textitPermutation and Groupingと呼ばれる,BERTのための新しい半構造化ワンショットプルーニング手法を提案する。
PGBは、各重みの重要な群を置換により同定し、他の重み全てを多面的注意層とフィードフォワード層の両方の構造として同定する。
BERT$_textBASE$の実験結果は、PGBが計算コストと精度の保存の観点から最先端の構造化プルーニング法より優れていることを示した。
論文 参考訳(メタデータ) (2025-02-06T11:34:41Z) - MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。
Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-11-01T20:37:58Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for
Large Language Models [23.12519490211362]
本稿では,BERTモデルの文脈における非構造重み打ちの精度圧縮トレードオフについて検討する。
近似2次情報に基づく効率的かつ正確な重量刈り法であるO-BERT-S(Optimal BERT Surgeon)を提案する。
本研究では,トランスフォーマーモデルに対する圧縮手法の複合化において,このプルーニング法が与える影響について検討する。
論文 参考訳(メタデータ) (2022-03-14T16:40:31Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural
Architecture Search [79.98686989604164]
既存の方法では、BERTを小さなモデルに圧縮するが、そのような圧縮はタスクに依存しない。
本稿では,タスク適応型小型モデルにBERTを自動的に圧縮する,可変ニューラルアーキテクチャ探索を利用した新しい圧縮手法AdaBERTを提案する。
我々は,複数のNLPタスクに対してAdaBERTを評価し,これらのタスク適応型圧縮モデルが推定時間でBERTよりも12.7倍から29.3倍速く,パラメータサイズで11.5倍から17.0倍小さいことを示す。
論文 参考訳(メタデータ) (2020-01-13T14:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。