論文の概要: pNLP-Mixer: an Efficient all-MLP Architecture for Language
- arxiv url: http://arxiv.org/abs/2202.04350v1
- Date: Wed, 9 Feb 2022 09:01:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 22:22:20.777894
- Title: pNLP-Mixer: an Efficient all-MLP Architecture for Language
- Title(参考訳): pNLP-Mixer: 言語のための効率的なオールMLPアーキテクチャ
- Authors: Francesco Fusco, Damian Pascual, Peter Staar
- Abstract要約: pNLP-Mixerは、言語的に情報を得た新しい射影層に基づくエムフリーモデルである。
MTOPとMultiATISという2つの多言語構文解析データセットを用いて,本モデルの評価を行った。
- 参考スコア(独自算出の注目度): 4.836659312719906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained language models drastically changed the natural language
processing(NLP) landscape. Nowadays, they represent the go-to framework to
tackle diverse NLP tasks, even with a limited number of annotations. However,
using those models in production, either in the cloud or at the edge, remains a
challenge due to the memory footprint and/or inference costs. As an
alternative, recent work on efficient NLP has shown that small weight-efficient
models can reach competitive performance at a fraction of the costs. Here, we
introduce pNLP-Mixer, an embbedding-free model based on the MLP-Mixer
architecture that achieves high weight-efficiency thanks to a novel
linguistically informed projection layer. We evaluate our model on two
multi-lingual semantic parsing datasets, MTOP and multiATIS. On MTOP our
pNLP-Mixer almost matches the performance of mBERT, which has 38 times more
parameters, and outperforms the state-of-the-art of tiny models (pQRNN) with 3
times fewer parameters. On a long-sequence classification task (Hyperpartisan)
our pNLP-Mixer without pretraining outperforms RoBERTa, which has 100 times
more parameters, demonstrating the potential of this architecture.
- Abstract(参考訳): 大きな事前学習された言語モデルは自然言語処理(nlp)の状況を大きく変えた。
現在では、アノテーションの数も限られていても、多様なnlpタスクに取り組むためのgo-toフレームワークを表しています。
しかし、これらのモデルを実運用で使用する場合、クラウドでもエッジでも、メモリフットプリントや推論コストのため、依然として課題である。
代替として、効率の良いNLPに関する最近の研究は、小さな重量効率のモデルが、わずかなコストで競争性能に達することを示した。
本稿では,MLP-Mixerアーキテクチャに基づく組込み自由モデルであるpNLP-Mixerを紹介する。
MTOPとMultiATISという2つの多言語意味解析データセットを用いて,本モデルの評価を行った。
MTOPでは、pNLP-Mixerは38倍のパラメータを持つmBERTのパフォーマンスとほぼ一致し、3倍のパラメータを持つ小さなモデル(pQRNN)の最先端性能よりも優れています。
長いシーケンス分類タスク(Hyperpartisan)では、100倍以上のパラメータを持つRoBERTaを事前訓練することなく、pNLP-Mixerを使用できます。
関連論文リスト
- MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。
高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。
マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文 参考訳(メタデータ) (2023-06-14T06:26:23Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DynaMixer: A Vision MLP Architecture with Dynamic Mixing [38.23027495545522]
本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。
提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
論文 参考訳(メタデータ) (2022-01-28T12:43:14Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Small-Bench NLP: Benchmark for small single GPU trained models in
Natural Language Processing [0.0]
Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークである。
我々のELECTRA-DeBERTa小モデルアーキテクチャは、BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。
論文 参考訳(メタデータ) (2021-09-22T17:18:55Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - LiteMuL: A Lightweight On-Device Sequence Tagger using Multi-task
Learning [1.3192560874022086]
LiteMuLは、マルチタスク学習アプローチを使用してユーザーの会話を効率的に処理できる軽量のオンデバイスシーケンスタグガーです。
我々のモデルは、NERやPOSタスクの他のMTLアプローチと競合する一方で、メモリフットプリントも低い。
論文 参考訳(メタデータ) (2020-12-15T19:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。