論文の概要: Are Compressed Language Models Less Subgroup Robust?
- arxiv url: http://arxiv.org/abs/2403.17811v1
- Date: Tue, 26 Mar 2024 15:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:47:26.834431
- Title: Are Compressed Language Models Less Subgroup Robust?
- Title(参考訳): 圧縮言語モデルはサブグループロバストよりも少ないか?
- Authors: Leonidas Gee, Andrea Zugarini, Novi Quadrianto,
- Abstract要約: BERT言語モデルのロバスト性に及ぼす18種類の圧縮法の影響について検討する。
最悪のグループパフォーマンスは、モデルサイズだけでなく、使用する圧縮方法にも依存する。
- 参考スコア(独自算出の注目度): 4.409149883949435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reduce the inference cost of large language models, model compression is increasingly used to create smaller scalable models. However, little is known about their robustness to minority subgroups defined by the labels and attributes of a dataset. In this paper, we investigate the effects of 18 different compression methods and settings on the subgroup robustness of BERT language models. We show that worst-group performance does not depend on model size alone, but also on the compression method used. Additionally, we find that model compression does not always worsen the performance on minority subgroups. Altogether, our analysis serves to further research into the subgroup robustness of model compression.
- Abstract(参考訳): 大規模言語モデルの推論コストを低減するため、より小さなスケーラブルなモデルを作成するためにモデル圧縮がますます使われている。
しかし、データセットのラベルや属性によって定義される少数サブグループに対する堅牢性については、ほとんど分かっていない。
本稿では, BERT言語モデルのサブグループロバスト性に及ぼす18種類の圧縮手法と設定の影響について検討する。
最悪のグループ性能は,モデルサイズだけでなく,使用する圧縮法にも依存することを示す。
さらに、モデル圧縮が少数部分群の性能を常に悪化させるとは限らない。
この分析は、モデル圧縮のサブグループロバスト性に関するさらなる研究に役立つ。
関連論文リスト
- Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data [8.475091996107741]
本稿では,事前学習したバニラ変圧器との競合圧縮比が可能なスイートスポットが存在するかを検討する。
テキスト、画像、オーディオデータの165GBの生のバイトシーケンスでモデルのファミリーをトレーニングします。
比較的小さなモデル(つまり数百万のパラメータ)が、標準的な汎用圧縮アルゴリズムより優れていることが分かりました。
論文 参考訳(メタデータ) (2024-10-07T14:32:03Z) - Lossless and Near-Lossless Compression for Foundation Models [11.307357041746865]
モデル圧縮性の原因を調査し,モデルに適した圧縮変種を導入し,圧縮性グループに分類する。
我々はこれらの手法がHuggingFaceのような大きなモデルハブからダウンロードされたネットワークトラフィックの1ヶ月あたりExaByte以上を節約できると見積もっている。
論文 参考訳(メタデータ) (2024-04-05T16:52:55Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Intriguing Properties of Compression on Multilingual Models [17.06142742945346]
微調整中における多言語事前学習言語モデルの分散化の影響を特徴づける枠組みを提案する。
このフレームワークを40言語にわたってmBERTという名前のエンティティ認識モデルに適用すると、圧縮はいくつかの興味深い、以前は未知の一般化特性を示す。
論文 参考訳(メタデータ) (2022-11-04T20:28:01Z) - Outlier-Robust Group Inference via Gradient Space Clustering [50.87474101594732]
既存のメソッドは、最悪のグループのパフォーマンスを改善することができるが、それらは、しばしば高価で入手できないグループアノテーションを必要とする。
モデルパラメータの勾配の空間にデータをクラスタリングすることで,アウトレーヤの存在下でグループアノテーションを学習する問題に対処する。
そこで我々は,DBSCANのような標準クラスタリング手法に適合するように,マイノリティグループや外れ値に関する情報を保存しながら,勾配空間内のデータがより単純な構造を持つことを示す。
論文 参考訳(メタデータ) (2022-10-13T06:04:43Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Model Patching: Closing the Subgroup Performance Gap with Data
Augmentation [50.35010342284508]
機械学習モデルの堅牢性を改善するためのフレームワークであるモデルパッチを導入する。
モデルパッチは、サブグループの違いに対してモデルを不変にすることを奨励し、サブグループによって共有されるクラス情報にフォーカスする。
CAMELは,(1)CycleGANを用いてクラス内およびサブグループ間拡張を学習し,(2)理論上動機付けられた整合性正規化器を用いてサブグループ性能のバランスをとる。
CAMELの有効性を3つのベンチマークデータセットで示し、最高のベースラインに対して、ロバストなエラーを最大33%削減した。
論文 参考訳(メタデータ) (2020-08-15T20:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。