論文の概要: A Short Study on Compressing Decoder-Based Language Models
- arxiv url: http://arxiv.org/abs/2110.08460v1
- Date: Sat, 16 Oct 2021 03:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:42:37.120963
- Title: A Short Study on Compressing Decoder-Based Language Models
- Title(参考訳): 圧縮デコーダに基づく言語モデルの一検討
- Authors: Tianda Li, Yassir El Mesbahi, Ivan Kobyzev, Ahmad Rashid, Atif Mahmud,
Nithin Anchuri, Habib Hajimolahoseini, Yang Liu, Mehdi Rezagholizadeh
- Abstract要約: 事前訓練された言語モデル(PLM)は、幅広い自然言語処理(NLP)タスクで成功している。
PLMの最先端技術は、エッジデバイスで使用するために非常に大きい。
モデル圧縮の話題はNLPコミュニティで注目を集めている。
- 参考スコア(独自算出の注目度): 9.090064110056224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Language Models (PLMs) have been successful for a wide range of
natural language processing (NLP) tasks. The state-of-the-art of PLMs, however,
are extremely large to be used on edge devices. As a result, the topic of model
compression has attracted increasing attention in the NLP community. Most of
the existing works focus on compressing encoder-based models (tiny-BERT,
distilBERT, distilRoBERTa, etc), however, to the best of our knowledge, the
compression of decoder-based models (such as GPT-2) has not been investigated
much. Our paper aims to fill this gap. Specifically, we explore two directions:
1) we employ current state-of-the-art knowledge distillation techniques to
improve fine-tuning of DistilGPT-2. 2) we pre-train a compressed GPT-2 model
using layer truncation and compare it against the distillation-based method
(DistilGPT2). The training time of our compressed model is significantly less
than DistilGPT-2, but it can achieve better performance when fine-tuned on
downstream tasks. We also demonstrate the impact of data cleaning on model
performance.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、幅広い自然言語処理(NLP)タスクで成功している。
しかし、PLMの最先端技術は、エッジデバイスで使用するには極めて大きい。
その結果,モデル圧縮の話題はNLPコミュニティで注目を集めている。
既存の研究の多くは、エンコーダベースのモデル(tiny-BERT, distilBERT, distilRoBERTaなど)の圧縮に重点を置いているが、私たちの知る限り、デコーダベースのモデル(GPT-2など)の圧縮についてはあまり研究されていない。
私たちの論文は、このギャップを埋めようとしている。
具体的には2つの方向を探索します
1)DistilGPT-2の微調整を改善するため,現状の知識蒸留技術を採用している。
2) 減圧層を用いた圧縮GPT-2モデルをプレトレーニングし, 蒸留法と比較した(DistilGPT2)。
圧縮モデルのトレーニング時間は DistilGPT-2 よりも大幅に少ないが,下流タスクの微調整では性能が向上する。
また,データクリーニングがモデル性能に与える影響を実証する。
関連論文リスト
- TQCompressor: improving tensor decomposition methods in neural networks
via permutations [0.0]
本稿では,テンソル分解を改良したニューラルネットワークモデル圧縮手法であるTQCompressorを紹介する。
この拡張により、通常分解と関連付けられたモデル表現率の損失を低減することができる。
TQCompressedGPT-2 は DistilGPT-2 と KnGPT-2 を比較評価で上回った。
論文 参考訳(メタデータ) (2024-01-29T18:07:56Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Can Model Compression Improve NLP Fairness [3.172761915061083]
本論文は, 生成言語モデルの毒性とバイアスに及ぼす蒸留および刈り取りの影響について検討した最初の論文である。
我々は, GPT2モデルを用いて知識蒸留法とプルーニング法を試験し, 毒性とバイアス低減の一貫したパターンを見出した。
論文 参考訳(メタデータ) (2022-01-21T05:14:51Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。