論文の概要: MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation
- arxiv url: http://arxiv.org/abs/2204.07675v1
- Date: Fri, 15 Apr 2022 23:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 14:32:00.872352
- Title: MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation
- Title(参考訳): MoEBERT:Importance-Guided AdaptationによるBERTからMixture-of-Experts
- Authors: Simiao Zuo, Qingru Zhang, Chen Liang, Pengcheng He, Tuo Zhao, Weizhu
Chen
- Abstract要約: 本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
- 参考スコア(独自算出の注目度): 68.30497162547768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have demonstrated superior performance in various
natural language processing tasks. However, these models usually contain
hundreds of millions of parameters, which limits their practicality because of
latency requirements in real-world applications. Existing methods train small
compressed models via knowledge distillation. However, performance of these
small models drops significantly compared with the pre-trained models due to
their reduced model capacity. We propose MoEBERT, which uses a
Mixture-of-Experts structure to increase model capacity and inference speed. We
initialize MoEBERT by adapting the feed-forward neural networks in a
pre-trained model into multiple experts. As such, representation power of the
pre-trained model is largely retained. During inference, only one of the
experts is activated, such that speed can be improved. We also propose a
layer-wise distillation method to train MoEBERT. We validate the efficiency and
effectiveness of MoEBERT on natural language understanding and question
answering tasks. Results show that the proposed method outperforms existing
task-specific distillation algorithms. For example, our method outperforms
previous approaches by over 2% on the MNLI (mismatched) dataset. Our code is
publicly available at https://github.com/SimiaoZuo/MoEBERT.
- Abstract(参考訳): 事前訓練された言語モデルは、様々な自然言語処理タスクにおいて優れた性能を示している。
しかしながら、これらのモデルは通常、数億のパラメータを含むため、現実のアプリケーションにおけるレイテンシ要求のため、実用性が制限される。
既存の方法は知識蒸留による小型圧縮モデルを訓練する。
しかし、これらの小型モデルの性能は、モデル容量の削減により、事前訓練されたモデルと比較して著しく低下する。
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
トレーニング済みモデルのフィードフォワードニューラルネットワークを複数のエキスパートに適応させることで、MoEBERTを初期化する。
このように、事前訓練されたモデルの表現力は、主に保持される。
推論中は、専門家の1人だけがアクティベートされ、スピードが向上する。
また,MoEBERTをトレーニングするための層ワイド蒸留法を提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
提案手法は既存のタスク固有蒸留アルゴリズムよりも優れていることを示す。
例えば,本手法はMNLIデータセットにおいて,従来の手法よりも2%以上優れていた。
私たちのコードはhttps://github.com/SimiaoZuo/MoEBERT.comで公開されています。
関連論文リスト
- BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。