論文の概要: What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression
- arxiv url: http://arxiv.org/abs/2110.08419v1
- Date: Sat, 16 Oct 2021 00:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 20:22:04.632652
- Title: What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression
- Title(参考訳): 圧縮された大規模言語モデルは何を忘れるのか?
モデル圧縮におけるロバスト性問題
- Authors: Mengnan Du, Subhabrata Mukherjee, Yu Cheng, Milad Shokouhi, Xia Hu,
Ahmed Hassan Awadallah
- Abstract要約: 本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
- 参考スコア(独自算出の注目度): 68.82486784654817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have focused on compressing pre-trained language models (PLMs)
like BERT where the major focus has been to improve the compressed model
performance for downstream tasks. However, there has been no study in analyzing
the impact of compression on the generalizability and robustness of these
models. Towards this end, we study two popular model compression techniques
including knowledge distillation and pruning and show that compressed models
are significantly less robust than their PLM counterparts on adversarial test
sets although they obtain similar performance on in-distribution development
sets for a task. Further analysis indicates that the compressed models overfit
on the easy samples and generalize poorly on the hard ones. We further leverage
this observation to develop a regularization strategy for model compression
based on sample uncertainty. Experimental results on several natural language
understanding tasks demonstrate our mitigation framework to improve both the
adversarial generalization as well as in-distribution task performance of the
compressed models.
- Abstract(参考訳): 最近の研究は、下流タスクの圧縮モデル性能を改善することに焦点を当てたBERTのようなプレトレーニング言語モデル(PLM)の圧縮に重点を置いている。
しかし、これらのモデルの一般化性と堅牢性に対する圧縮の影響を分析する研究は行われていない。
この目的のために, 知識蒸留やプルーニングを含む2つの一般的なモデル圧縮手法について検討し, 圧縮されたモデルが, 対向テストセット上でのPLMよりもかなり頑健であることを示す。
さらなる分析により、圧縮されたモデルは簡単なサンプルに過剰に適合し、ハードサンプルにはあまり一般化しないことが示された。
さらにこの観測を利用して,サンプルの不確実性に基づくモデル圧縮の正規化戦略を開発する。
いくつかの自然言語理解タスクの実験結果から,圧縮モデルの逆一般化と分散タスク性能の両方を改善するための緩和フレームワークが実証された。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [91.12425544503395]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - The Cost of Compression: Investigating the Impact of Compression on
Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。
2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。
LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。
パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文 参考訳(メタデータ) (2023-12-01T22:27:12Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Uncovering the Hidden Cost of Model Compression [49.937417635812025]
視覚プロンプティング (VP) はコンピュータビジョンにおいて重要な伝達学習手法として登場した。
モデル間隔は視覚的プロンプトベース転送の性能に悪影響を及ぼす。
以上の結果から,疎度が下流視覚刺激モデルの校正に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Benchmarking Adversarial Robustness of Compressed Deep Learning Models [15.737988622271219]
本研究は, 基本モデルの逆入力が刈り取ったバージョンに与える影響を理解することを目的とする。
以上の結果から, 汎用性, 圧縮性, 高速な推論時間は保たれるが, 対向ロバスト性はベースモデルに匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-16T06:06:56Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Can Model Compression Improve NLP Fairness [3.172761915061083]
本論文は, 生成言語モデルの毒性とバイアスに及ぼす蒸留および刈り取りの影響について検討した最初の論文である。
我々は, GPT2モデルを用いて知識蒸留法とプルーニング法を試験し, 毒性とバイアス低減の一貫したパターンを見出した。
論文 参考訳(メタデータ) (2022-01-21T05:14:51Z) - Model Compression for Dynamic Forecast Combination [9.281199058905017]
動的予測アンサンブルを個々のモデルに圧縮すると、同様の予測性能が得られることを示す。
また,平均ランクが最も高い圧縮個々モデルは規則に基づく回帰モデルであることを示した。
論文 参考訳(メタデータ) (2021-04-05T09:55:35Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。