論文の概要: BERT-of-Theseus: Compressing BERT by Progressive Module Replacing
- arxiv url: http://arxiv.org/abs/2002.02925v4
- Date: Sat, 3 Oct 2020 12:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:43:24.136535
- Title: BERT-of-Theseus: Compressing BERT by Progressive Module Replacing
- Title(参考訳): BERT-of-theseus:Progressive Module ReplacingによるBERT圧縮
- Authors: Canwen Xu and Wangchunshu Zhou and Tao Ge and Furu Wei and Ming Zhou
- Abstract要約: 我々のアプローチはまず、元のBERTを複数のモジュールに分割し、そのコンパクトな代替品を構築する。
我々は、元のモジュールの振る舞いを模倣するために、コンパクトなモジュールを訓練するために、元のモジュールを代用モジュールにランダムに置き換える。
- 参考スコア(独自算出の注目度): 113.48041857222431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel model compression approach to effectively
compress BERT by progressive module replacing. Our approach first divides the
original BERT into several modules and builds their compact substitutes. Then,
we randomly replace the original modules with their substitutes to train the
compact modules to mimic the behavior of the original modules. We progressively
increase the probability of replacement through the training. In this way, our
approach brings a deeper level of interaction between the original and compact
models. Compared to the previous knowledge distillation approaches for BERT
compression, our approach does not introduce any additional loss function. Our
approach outperforms existing knowledge distillation approaches on GLUE
benchmark, showing a new perspective of model compression.
- Abstract(参考訳): 本稿では,プログレッシブモジュール置換によりBERTを効果的に圧縮する新しいモデル圧縮手法を提案する。
我々のアプローチはまず、元のBERTを複数のモジュールに分割し、そのコンパクトな代替品を構築する。
そして、元のモジュールをランダムにその代替モジュールに置き換え、コンパクトモジュールを訓練して元のモジュールの振る舞いを模倣します。
トレーニングを通じて、置換の確率を徐々に増加させます。
このようにして、我々のアプローチはオリジナルモデルとコンパクトモデルの間により深いレベルの相互作用をもたらす。
BERT圧縮における従来の知識蒸留手法と比較して, 新たな損失関数は導入されていない。
提案手法は,モデル圧縮の新しい視点を示し,既存の知識蒸留手法よりも優れている。
関連論文リスト
- MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - EELBERT: Tiny Models through Dynamic Embeddings [0.28675177318965045]
EELBERTは、変換器ベースのモデル(例えばBERT)の圧縮のためのアプローチである。
これは、入力されたモデルの埋め込み層を動的、すなわちオンザフライの埋め込み計算に置き換えることによって達成される。
UNO-EELBERTは,完全に訓練されたBERT-tinyの4%以内でGLUEスコアを達成できる最小モデルである。
論文 参考訳(メタデータ) (2023-10-31T03:28:08Z) - Module-wise Adaptive Distillation for Multimodality Foundation Models [125.42414892566843]
マルチモーダル・ファンデーション・モデルは 目覚ましい 一般化性を示したが 規模が大きいため 展開に挑戦する
規模を減らすための効果的なアプローチの1つは層単位での蒸留であり、小さな学生モデルは各層で大きな教師モデルの隠された表現と一致するように訓練される。
そこで本研究では, 各モジュールの蒸留後の損失デクリメントを記録し, より頻繁な蒸留に寄与するモジュールを選択することによって, 個々のモジュールの寄与をトラックすることを提案する。
論文 参考訳(メタデータ) (2023-10-06T19:24:00Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language
Models via Knowledge Distillation [5.8287955127529365]
我々は、Kronecker分解を用いた、最先端のTransformerベースの事前学習言語モデル圧縮の限界を推し進める。
このフレームワークを用いて得られたBERT_BASEモデルの圧縮版であるKroneckerBERTを提案する。
実験の結果,提案モデルでは分布外ロバスト性を保証し,SQuADの最先端圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-13T18:19:30Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z) - LadaBERT: Lightweight Adaptation of BERT through Hybrid Model
Compression [21.03685890385275]
BERTは、大きなコーパスによって事前訓練された最先端の言語表現モデルである。
BERTはメモリ集約的であり、ユーザ要求の満足のいくレイテンシにつながる。
本稿では,異なるモデル圧縮手法の利点を組み合わせたLadaBERTというハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2020-04-08T17:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。