論文の概要: Can Model Compression Improve NLP Fairness
- arxiv url: http://arxiv.org/abs/2201.08542v1
- Date: Fri, 21 Jan 2022 05:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 14:32:12.696910
- Title: Can Model Compression Improve NLP Fairness
- Title(参考訳): Can Model CompressionはNLPの公平性を向上する
- Authors: Guangxuan Xu, Qingyuan Hu
- Abstract要約: 本論文は, 生成言語モデルの毒性とバイアスに及ぼす蒸留および刈り取りの影響について検討した最初の論文である。
我々は, GPT2モデルを用いて知識蒸留法とプルーニング法を試験し, 毒性とバイアス低減の一貫したパターンを見出した。
- 参考スコア(独自算出の注目度): 3.172761915061083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model compression techniques are receiving increasing attention; however, the
effect of compression on model fairness is still under explored. This is the
first paper to examine the effect of distillation and pruning on the toxicity
and bias of generative language models. We test Knowledge Distillation and
Pruning methods on the GPT2 model and found a consistent pattern of toxicity
and bias reduction after model distillation; this result can be potentially
interpreted by existing line of research which describes model compression as a
regularization technique; our work not only serves as a reference for safe
deployment of compressed models, but also extends the discussion of
"compression as regularization" into the setting of neural LMs, and hints at
the possibility of using compression to develop fairer models.
- Abstract(参考訳): モデル圧縮技術が注目されているが、モデルフェアネスに対する圧縮の影響はまだ検討中である。
本論文は, 生成言語モデルの毒性とバイアスに及ぼす蒸留と刈り取りの影響を調べる最初の論文である。
We test Knowledge Distillation and Pruning methods on the GPT2 model and found a consistent pattern of toxicity and bias reduction after model distillation; this result can be potentially interpreted by existing line of research which describes model compression as a regularization technique; our work not only serves as a reference for safe deployment of compressed models, but also extends the discussion of "compression as regularization" into the setting of neural LMs, and hints at the possibility of using compression to develop fairer models.
関連論文リスト
- Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Progressive Compression with Universally Quantized Diffusion Models [35.199627388957566]
プログレッシブコーディングのための拡散モデルの可能性を探り、インクリメンタルに伝送および復号化が可能なビット列を導出する。
ガウス拡散モデルや条件付き拡散モデルに基づく先行研究とは異なり、前処理における一様雑音を伴う新しい拡散モデルを提案する。
画像圧縮において有望な第一結果が得られ、単一のモデルで幅広いビットレートで競合速度歪みとレートリアリズムが達成される。
論文 参考訳(メタデータ) (2024-12-14T19:06:01Z) - Accuracy is Not All You Need [9.371810162601623]
複数の圧縮技術、モデル、データセットにまたがるメトリクスの詳細な調査を行います。
本研究では, 圧縮モデルがエンドユーザーに対して可視である場合, 精度が類似している場合でも, ベースラインモデルとは大きく異なることを示す。
我々は、KL-Divergence と flips という2つの指標を提案し、それらがよく相関していることを示す。
論文 参考訳(メタデータ) (2024-07-12T10:19:02Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。