論文の概要: What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression
- arxiv url: http://arxiv.org/abs/2110.08419v1
- Date: Sat, 16 Oct 2021 00:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 20:22:04.632652
- Title: What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression
- Title(参考訳): 圧縮された大規模言語モデルは何を忘れるのか?
モデル圧縮におけるロバスト性問題
- Authors: Mengnan Du, Subhabrata Mukherjee, Yu Cheng, Milad Shokouhi, Xia Hu,
Ahmed Hassan Awadallah
- Abstract要約: 本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
- 参考スコア(独自算出の注目度): 68.82486784654817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have focused on compressing pre-trained language models (PLMs)
like BERT where the major focus has been to improve the compressed model
performance for downstream tasks. However, there has been no study in analyzing
the impact of compression on the generalizability and robustness of these
models. Towards this end, we study two popular model compression techniques
including knowledge distillation and pruning and show that compressed models
are significantly less robust than their PLM counterparts on adversarial test
sets although they obtain similar performance on in-distribution development
sets for a task. Further analysis indicates that the compressed models overfit
on the easy samples and generalize poorly on the hard ones. We further leverage
this observation to develop a regularization strategy for model compression
based on sample uncertainty. Experimental results on several natural language
understanding tasks demonstrate our mitigation framework to improve both the
adversarial generalization as well as in-distribution task performance of the
compressed models.
- Abstract(参考訳): 最近の研究は、下流タスクの圧縮モデル性能を改善することに焦点を当てたBERTのようなプレトレーニング言語モデル(PLM)の圧縮に重点を置いている。
しかし、これらのモデルの一般化性と堅牢性に対する圧縮の影響を分析する研究は行われていない。
この目的のために, 知識蒸留やプルーニングを含む2つの一般的なモデル圧縮手法について検討し, 圧縮されたモデルが, 対向テストセット上でのPLMよりもかなり頑健であることを示す。
さらなる分析により、圧縮されたモデルは簡単なサンプルに過剰に適合し、ハードサンプルにはあまり一般化しないことが示された。
さらにこの観測を利用して,サンプルの不確実性に基づくモデル圧縮の正規化戦略を開発する。
いくつかの自然言語理解タスクの実験結果から,圧縮モデルの逆一般化と分散タスク性能の両方を改善するための緩和フレームワークが実証された。
関連論文リスト
- Evaluating the Impact of Compression Techniques on Task-Specific Performance of Large Language Models [0.0]
大規模言語モデル(LLM)は強力な能力を提供するが、かなりの計算コストがかかる。
本研究では,LLaMA-2-7Bモデルに対する圧縮法の影響について検討した。
SparseGPTとWandaは50%の間隔でも難易度を保っているが,下流タスクでは著しく低下している。
論文 参考訳(メタデータ) (2024-09-17T14:34:11Z) - Compress and Compare: Interactively Evaluating Efficiency and Behavior Across ML Model Compression Experiments [20.360936113552597]
デバイス上で機械学習モデルをデプロイするには、圧縮アルゴリズムを使用して、高品質なアウトプットを維持しながらモデルを縮小および高速化する。
既存の圧縮ツールは比較を不十分にサポートし、退屈な結果となり、時には不完全な解析が非結合ツールに分散する。
実世界の比較を支援するために,Compress and Compareという対話型ビジュアルシステムを開発した。
コンプレックスとコンプレックスは、圧縮されたモデル間の前兆関係を可視化し、モデルの予測、重み、アクティベーションを比較することで圧縮誘起の挙動変化を明らかにすることで、圧縮戦略を約束する。
論文 参考訳(メタデータ) (2024-08-06T16:17:51Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Can Model Compression Improve NLP Fairness [3.172761915061083]
本論文は, 生成言語モデルの毒性とバイアスに及ぼす蒸留および刈り取りの影響について検討した最初の論文である。
我々は, GPT2モデルを用いて知識蒸留法とプルーニング法を試験し, 毒性とバイアス低減の一貫したパターンを見出した。
論文 参考訳(メタデータ) (2022-01-21T05:14:51Z) - Model Compression for Dynamic Forecast Combination [9.281199058905017]
動的予測アンサンブルを個々のモデルに圧縮すると、同様の予測性能が得られることを示す。
また,平均ランクが最も高い圧縮個々モデルは規則に基づく回帰モデルであることを示した。
論文 参考訳(メタデータ) (2021-04-05T09:55:35Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。