論文の概要: Can Model Compression Improve NLP Fairness
- arxiv url: http://arxiv.org/abs/2201.08542v1
- Date: Fri, 21 Jan 2022 05:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 14:32:12.696910
- Title: Can Model Compression Improve NLP Fairness
- Title(参考訳): Can Model CompressionはNLPの公平性を向上する
- Authors: Guangxuan Xu, Qingyuan Hu
- Abstract要約: 本論文は, 生成言語モデルの毒性とバイアスに及ぼす蒸留および刈り取りの影響について検討した最初の論文である。
我々は, GPT2モデルを用いて知識蒸留法とプルーニング法を試験し, 毒性とバイアス低減の一貫したパターンを見出した。
- 参考スコア(独自算出の注目度): 3.172761915061083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model compression techniques are receiving increasing attention; however, the
effect of compression on model fairness is still under explored. This is the
first paper to examine the effect of distillation and pruning on the toxicity
and bias of generative language models. We test Knowledge Distillation and
Pruning methods on the GPT2 model and found a consistent pattern of toxicity
and bias reduction after model distillation; this result can be potentially
interpreted by existing line of research which describes model compression as a
regularization technique; our work not only serves as a reference for safe
deployment of compressed models, but also extends the discussion of
"compression as regularization" into the setting of neural LMs, and hints at
the possibility of using compression to develop fairer models.
- Abstract(参考訳): モデル圧縮技術が注目されているが、モデルフェアネスに対する圧縮の影響はまだ検討中である。
本論文は, 生成言語モデルの毒性とバイアスに及ぼす蒸留と刈り取りの影響を調べる最初の論文である。
We test Knowledge Distillation and Pruning methods on the GPT2 model and found a consistent pattern of toxicity and bias reduction after model distillation; this result can be potentially interpreted by existing line of research which describes model compression as a regularization technique; our work not only serves as a reference for safe deployment of compressed models, but also extends the discussion of "compression as regularization" into the setting of neural LMs, and hints at the possibility of using compression to develop fairer models.
関連論文リスト
- Accuracy is Not All You Need [9.371810162601623]
複数の圧縮技術、モデル、データセットにまたがるメトリクスの詳細な調査を行います。
本研究では, 圧縮モデルがエンドユーザーに対して可視である場合, 精度が類似している場合でも, ベースラインモデルとは大きく異なることを示す。
我々は、KL-Divergence と flips という2つの指標を提案し、それらがよく相関していることを示す。
論文 参考訳(メタデータ) (2024-07-12T10:19:02Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - A Short Study on Compressing Decoder-Based Language Models [9.090064110056224]
事前訓練された言語モデル(PLM)は、幅広い自然言語処理(NLP)タスクで成功している。
PLMの最先端技術は、エッジデバイスで使用するために非常に大きい。
モデル圧縮の話題はNLPコミュニティで注目を集めている。
論文 参考訳(メタデータ) (2021-10-16T03:37:08Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language
Models via Knowledge Distillation [5.8287955127529365]
我々は、Kronecker分解を用いた、最先端のTransformerベースの事前学習言語モデル圧縮の限界を推し進める。
このフレームワークを用いて得られたBERT_BASEモデルの圧縮版であるKroneckerBERTを提案する。
実験の結果,提案モデルでは分布外ロバスト性を保証し,SQuADの最先端圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-13T18:19:30Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。