論文の概要: Weight Squeezing: Reparameterization for Knowledge Transfer and Model
Compression
- arxiv url: http://arxiv.org/abs/2010.06993v3
- Date: Mon, 30 Aug 2021 12:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:17:06.648864
- Title: Weight Squeezing: Reparameterization for Knowledge Transfer and Model
Compression
- Title(参考訳): 重みのスクイージング:知識伝達とモデル圧縮に対する再パラメータ化
- Authors: Artem Chumachenko and Daniil Gavrilov and Nikita Balagansky and Pavel
Kalaidin
- Abstract要約: Weight Squeezingと呼ばれる,知識伝達とモデル圧縮を同時に行う新しい手法を提案する。
本手法では,教師モデルからの知識伝達を,その重みからより小さな学生モデル重みへのマッピングを学習することで行う。
Gated Weight Squeezingによる微調整は、BERT-Mediumモデルや他の同時SoTAアプローチよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 0.38233569758620056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a novel approach for simultaneous knowledge transfer
and model compression called Weight Squeezing. With this method, we perform
knowledge transfer from a teacher model by learning the mapping from its
weights to smaller student model weights.
We applied Weight Squeezing to a pre-trained text classification model based
on BERT-Medium model and compared our method to various other knowledge
transfer and model compression methods on GLUE multitask benchmark. We observed
that our approach produces better results while being significantly faster than
other methods for training student models.
We also proposed a variant of Weight Squeezing called Gated Weight Squeezing,
for which we combined fine-tuning of BERT-Medium model and learning mapping
from BERT-Base weights. We showed that fine-tuning with Gated Weight Squeezing
outperforms plain fine-tuning of BERT-Medium model as well as other concurrent
SoTA approaches while much being easier to implement.
- Abstract(参考訳): 本稿では,重みスクイージングと呼ばれる知識伝達とモデル圧縮を同時に行う新しい手法を提案する。
本手法では,教師モデルからの知識伝達を,その重みからより小さな学生モデル重みへのマッピングを学習することで行う。
bert-mediumモデルに基づく事前学習されたテキスト分類モデルに重みスクイージングを適用し,glueマルチタスクベンチマークにおいて,様々な知識伝達法とモデル圧縮法と比較した。
本手法は, 学習モデルの学習方法に比べて有意に高速でありながら, 優れた結果をもたらすことを見出した。
我々はまた、BERT-Mediumモデルの微調整とBERT-Base重みからの学習マッピングを組み合わせたGated Weight Squeezingと呼ばれるウェイト・スクイージングを提案した。
Gated Weight Squeezingによる微調整は、BERT-Mediumモデルと他の同時SoTAアプローチの微調整に優れ、実装が容易であることを示した。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Adaptive Distribution Calibration for Few-Shot Learning with
Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。
標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T02:32:57Z) - Meta-Ensemble Parameter Learning [35.6391802164328]
本稿では,メタラーニング手法を用いて,単一モデルのパラメータを直接予測できるかどうかを考察する。
WeightFormerは、トランスフォーマーベースのモデルで、フォワードパスの層で生徒のネットワーク重みを予測できる。
論文 参考訳(メタデータ) (2022-10-05T00:47:24Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z) - Speeding up Deep Model Training by Sharing Weights and Then Unsharing [23.35912133295125]
本稿では,BERTモデルの簡易かつ効率的な学習手法を提案する。
提案手法では,繰り返しモジュールのスタックを含むBERTの特別な構造を利用する。
論文 参考訳(メタデータ) (2021-10-08T01:23:34Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。