論文の概要: CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing
- arxiv url: http://arxiv.org/abs/2204.06625v1
- Date: Wed, 13 Apr 2022 19:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 12:19:16.357561
- Title: CAMERO: Consistency Regularized Ensemble of Perturbed Language Models
with Weight Sharing
- Title(参考訳): CAMERO: ウェイトシェアリングを伴う摂動言語モデルの一貫性規則化
- Authors: Chen Liang, Pengcheng He, Yelong Shen, Weizhu Chen, Tuo Zhao
- Abstract要約: 本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 83.63107444454938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model ensemble is a popular approach to produce a low-variance and
well-generalized model. However, it induces large memory and inference costs,
which are often not affordable for real-world deployment. Existing work has
resorted to sharing weights among models. However, when increasing the
proportion of the shared weights, the resulting models tend to be similar, and
the benefits of using model ensemble diminish. To retain ensemble benefits
while maintaining a low memory cost, we propose a consistency-regularized
ensemble learning approach based on perturbed models, named CAMERO.
Specifically, we share the weights of bottom layers across all models and apply
different perturbations to the hidden representations for different models,
which can effectively promote the model diversity. Meanwhile, we apply a
prediction consistency regularizer across the perturbed models to control the
variance due to the model diversity. Our experiments using large language
models demonstrate that CAMERO significantly improves the generalization
performance of the ensemble model. Specifically, CAMERO outperforms the
standard ensemble of 8 BERT-base models on the GLUE benchmark by 0.7 with a
significantly smaller model size (114.2M vs. 880.6M).
- Abstract(参考訳): モデルアンサンブルは、低分散かつよく一般化されたモデルを生成する一般的なアプローチである。
しかし、これは大きなメモリと推論コストを発生させるが、現実のデプロイメントには手頃ではないことが多い。
既存の作業は、モデル間で重量を共有することに頼っている。
しかし、共有重量の割合を増大させると、結果として得られるモデルは類似する傾向にあり、モデルのアンサンブルを使用する利点は減少する。
メモリコストを抑えつつアンサンブルの利点を維持するため,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。
具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。
一方,モデル多様性による分散を制御するために,摂動モデルにまたがる予測一貫性調整器を適用する。
大規模言語モデルを用いた実験により,cameroはアンサンブルモデルの一般化性能を大幅に向上させた。
具体的には、CAMEROはGLUEベンチマークで8つのBERTベースモデルの標準アンサンブルを0.7で上回り、モデルサイズはかなり小さい(114.2M対880.6M)。
関連論文リスト
- Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。
暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。
驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文 参考訳(メタデータ) (2023-07-16T11:45:35Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Dropout Inference with Non-Uniform Weight Scaling [6.726255259929496]
正規化としてのドロップアウトは、ニューラルネットワークのトレーニングの過度な適合を防ぐために広く使用されている。
本研究では,いくつかのサブモデルが高バイアスモデルに近づき,一様でないウェイトスケーリングが推論の近似として優れているシナリオを実証する。
論文 参考訳(メタデータ) (2022-04-27T16:41:12Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。