論文の概要: Towards Efficient NLP: A Standard Evaluation and A Strong Baseline
- arxiv url: http://arxiv.org/abs/2110.07038v1
- Date: Wed, 13 Oct 2021 21:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 12:59:18.828660
- Title: Towards Efficient NLP: A Standard Evaluation and A Strong Baseline
- Title(参考訳): 効率的なNLPを目指して:標準評価と強力なベースライン
- Authors: Xiangyang Liu, Tianxiang Sun, Junliang He, Lingling Wu, Xinyu Zhang,
Hao Jiang, Zhao Cao, Xuanjing Huang, Xipeng Qiu
- Abstract要約: 本研究は, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ベンチマークとともに、強いベースラインであるElasticBERTの事前トレーニングとリリースも行います。
- 参考スコア(独自算出の注目度): 55.29756535335831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supersized pre-trained language models have pushed the accuracy of various
NLP tasks to a new state-of-the-art (SOTA). Rather than pursuing the reachless
SOTA accuracy, most works are pursuing improvement on other dimensions such as
efficiency, leading to "Pareto SOTA". Different from accuracy, the metric for
efficiency varies across different studies, making them hard to be fairly
compared. To that end, this work presents ELUE (Efficient Language
Understanding Evaluation), a standard evaluation, and a public leaderboard for
efficient NLP models. ELUE is dedicated to depicting the Pareto Front for
various language understanding tasks, such that it can tell whether and how
much a method achieves Pareto improvement. Along with the benchmark, we also
pre-train and release a strong baseline, ElasticBERT, whose elasticity is both
static and dynamic. ElasticBERT is static in that it allows reducing model
layers on demand. ElasticBERT is dynamic in that it selectively executes parts
of model layers conditioned on the input. We demonstrate the ElasticBERT,
despite its simplicity, outperforms or performs on par with SOTA compressed and
early exiting models. The ELUE benchmark is publicly available at
http://eluebenchmark.fastnlp.top/.
- Abstract(参考訳): 超小型の事前学習言語モデルは、様々なNLPタスクの精度を新しい最先端(SOTA)に押し上げた。
リーチレスSOTAの精度を追求するよりも、効率性などの他の側面の改善を追求する作品が多く、「SOTAパレート」に繋がる。
精度と異なり、効率の指標は異なる研究によって異なり、かなり比較することは困難である。
そこで本研究では, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ELUEは、様々な言語理解タスクのためのPareto Frontの描写に特化しており、メソッドがParetoの改善をどの程度達成するかを判断することができる。
ベンチマークに加えて、私たちは強力なベースラインであるelasticbertの事前トレーニングとリリースも行っています。
ElasticBERTは、オンデマンドでモデルレイヤを削減できるという点で静的である。
ElasticBERTは動的で、入力に条件付きモデルレイヤの一部を選択的に実行する。
我々は,ElasticBERTの単純さにもかかわらず,SOTA圧縮および早期出口モデルに匹敵する性能を示した。
ELUEベンチマークはhttp://eluebenchmark.fastnlp.top/で公開されている。
関連論文リスト
- Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Data-Efficient French Language Modeling with CamemBERTa [0.0]
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。
我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-02T12:45:34Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - HULK: An Energy Efficiency Benchmark Platform for Responsible Natural
Language Processing [76.38975568873765]
本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。
我々は、事前訓練されたモデルのエネルギー効率を時間とコストの観点から比較する。
論文 参考訳(メタデータ) (2020-02-14T01:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。