論文の概要: BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth
Mover's Distance
- arxiv url: http://arxiv.org/abs/2010.06133v1
- Date: Tue, 13 Oct 2020 02:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 22:45:01.585644
- Title: BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth
Mover's Distance
- Title(参考訳): BERT-EMD:アースモーバー距離を用いたBERT圧縮のための多対多層マッピング
- Authors: Jianquan Li, Xiaokang Liu, Honghong Zhao, Ruifeng Xu, Min Yang and
Yaohong Jin
- Abstract要約: 高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。
本稿では,多層多層膜マッピングに基づく新しいBERT蒸留法を提案する。
我々のモデルは様々なNLPタスクに対して異なる教師層から適応的に学習することができる。
- 参考スコア(独自算出の注目度): 25.229624487344186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (e.g., BERT) have achieved significant success in
various natural language processing (NLP) tasks. However, high storage and
computational costs obstruct pre-trained language models to be effectively
deployed on resource-constrained devices. In this paper, we propose a novel
BERT distillation method based on many-to-many layer mapping, which allows each
intermediate student layer to learn from any intermediate teacher layers. In
this way, our model can learn from different teacher layers adaptively for
various NLP tasks. %motivated by the intuition that different NLP tasks require
different levels of linguistic knowledge contained in the intermediate layers
of BERT. In addition, we leverage Earth Mover's Distance (EMD) to compute the
minimum cumulative cost that must be paid to transform knowledge from teacher
network to student network. EMD enables the effective matching for many-to-many
layer mapping. %EMD can be applied to network layers with different sizes and
effectively measures semantic distance between the teacher network and student
network. Furthermore, we propose a cost attention mechanism to learn the layer
weights used in EMD automatically, which is supposed to further improve the
model's performance and accelerate convergence time. Extensive experiments on
GLUE benchmark demonstrate that our model achieves competitive performance
compared to strong competitors in terms of both accuracy and model compression.
- Abstract(参考訳): 事前訓練された言語モデル(例えばBERT)は、様々な自然言語処理(NLP)タスクで大きな成功を収めた。
しかし、高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。
本稿では,中間教師層から各中間生徒層を学習できる多対多の層マッピングに基づく新しいBERT蒸留法を提案する。
このようにして,様々なnlpタスクに適応した教師層から学習を行うことができる。
異なるNLPタスクは、BERTの中間層に含まれる異なるレベルの言語知識を必要とするという直感に動機づけられた。
さらに, earth mover's distance (emd) を利用して,教師ネットワークから生徒ネットワークへ知識を変換するために必要な最小累積コストを計算する。
EMDは、多層間マッピングの効果的なマッチングを可能にする。
%emdは大きさの異なるネットワーク層に適用でき,教師ネットワークと学生ネットワーク間の意味距離を効果的に測定できる。
さらに,EMDにおける重み付けを自動的に学習するコストアテンション機構を提案し,モデルの性能向上と収束時間の短縮を図る。
GLUEベンチマークの大規模な実験により, 精度とモデル圧縮の両面で, 強力な競合相手と比較して, 競争性能が向上することが示された。
関連論文リスト
- Keep Decoding Parallel with Effective Knowledge Distillation from
Language Models to End-to-end Speech Recognisers [19.812986973537143]
本研究では,BERT教師モデルから中間層を用いた自動音声認識(ASR)モデルへの知識蒸留(KD)の新たなアプローチを提案する。
本手法は,中間層と最終層の両方を用いて,言語モデル(LM)情報をより効果的にASRモデルに蒸留可能であることを示す。
提案手法を用いて,外部LMの浅層融合よりも高い認識精度を実現し,高速並列復号化を実現する。
論文 参考訳(メタデータ) (2024-01-22T05:46:11Z) - Efficient Temporal Sentence Grounding in Videos with Multi-Teacher Knowledge Distillation [29.952771954087602]
TSGV(Temporal Sentence Grounding in Videos)は、未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。
本稿では,TSGVモデルにおいて高い性能を維持しながら効率的な計算を実現することの課題について論じる。
論文 参考訳(メタデータ) (2023-08-07T17:07:48Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - Cross-Layer Distillation with Semantic Calibration [26.59016826651437]
本稿では,教師モデルの適切なターゲット層を各生徒層に自動的に割り当てるセマンティックなクロスレイヤー知識蒸留(SemCKD)を提案する。
学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。
論文 参考訳(メタデータ) (2020-12-06T11:16:07Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。