論文の概要: pNLP-Mixer: an Efficient all-MLP Architecture for Language
- arxiv url: http://arxiv.org/abs/2202.04350v2
- Date: Thu, 25 May 2023 08:48:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-27 00:36:33.059100
- Title: pNLP-Mixer: an Efficient all-MLP Architecture for Language
- Title(参考訳): pNLP-Mixer: 言語のための効率的なオールMLPアーキテクチャ
- Authors: Francesco Fusco, Damian Pascual, Peter Staar, Diego Antognini
- Abstract要約: オンデバイスNLPのためのpNLP-Mixerモデルは、新しいプロジェクション層により高い重量効率を実現する。
MTOPとMultiATISの2つの多言語意味解析データセットに対して,pNLP-Mixerモデルの評価を行った。
私たちのモデルは、MTOPで最大7.8%のマージンで、2倍の大きさの小さなモデルの最先端を一貫して打ち負かしています。
- 参考スコア(独自算出の注目度): 10.634940525287014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained language models based on transformer architecture have
drastically changed the natural language processing (NLP) landscape. However,
deploying those models for on-device applications in constrained devices such
as smart watches is completely impractical due to their size and inference
cost. As an alternative to transformer-based architectures, recent work on
efficient NLP has shown that weight-efficient models can attain competitive
performance for simple tasks, such as slot filling and intent classification,
with model sizes in the order of the megabyte. This work introduces the
pNLP-Mixer architecture, an embedding-free MLP-Mixer model for on-device NLP
that achieves high weight-efficiency thanks to a novel projection layer. We
evaluate a pNLP-Mixer model of only one megabyte in size on two multi-lingual
semantic parsing datasets, MTOP and multiATIS. Our quantized model achieves
99.4% and 97.8% the performance of mBERT on MTOP and multi-ATIS, while using
170x fewer parameters. Our model consistently beats the state-of-the-art of
tiny models (pQRNN), which is twice as large, by a margin up to 7.8% on MTOP.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模な事前学習型言語モデルは、自然言語処理(NLP)の状況を大きく変えた。
しかし、スマートウォッチのような制約のあるデバイスにオンデバイスアプリケーション向けにこれらのモデルをデプロイすることは、そのサイズと推論コストのため、全く現実的ではない。
トランスベースのアーキテクチャに代わるものとして、効率のよいnlpに関する最近の研究は、スロット充填やインテント分類といった単純なタスクにおいて、モデルサイズがメガバイトの順番で、重量効率のよいモデルが競合性能を達成できることを示した。
pNLP-Mixerアーキテクチャは、新しいプロジェクション層により高い重量効率を実現するデバイス上のNLPのための埋め込み不要なMLP-Mixerモデルである。
MTOPとMultiATISの2つの多言語意味解析データセットに対して,pNLP-Mixerモデルの評価を行った。
MTOPおよびマルチATISにおけるmBERTの性能は,170倍少ないパラメータを用いて99.4%,97.8%向上した。
私たちのモデルは、MTOPで最大7.8%のマージンで、小さなモデルの最先端(pQRNN)を常に打ち負かしています。
関連論文リスト
- MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。
高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。
マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文 参考訳(メタデータ) (2023-06-14T06:26:23Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DynaMixer: A Vision MLP Architecture with Dynamic Mixing [38.23027495545522]
本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。
提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
論文 参考訳(メタデータ) (2022-01-28T12:43:14Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Small-Bench NLP: Benchmark for small single GPU trained models in
Natural Language Processing [0.0]
Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークである。
我々のELECTRA-DeBERTa小モデルアーキテクチャは、BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。
論文 参考訳(メタデータ) (2021-09-22T17:18:55Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - LiteMuL: A Lightweight On-Device Sequence Tagger using Multi-task
Learning [1.3192560874022086]
LiteMuLは、マルチタスク学習アプローチを使用してユーザーの会話を効率的に処理できる軽量のオンデバイスシーケンスタグガーです。
我々のモデルは、NERやPOSタスクの他のMTLアプローチと競合する一方で、メモリフットプリントも低い。
論文 参考訳(メタデータ) (2020-12-15T19:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。