論文の概要: Small-Bench NLP: Benchmark for small single GPU trained models in
Natural Language Processing
- arxiv url: http://arxiv.org/abs/2109.10847v1
- Date: Wed, 22 Sep 2021 17:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 15:04:53.706263
- Title: Small-Bench NLP: Benchmark for small single GPU trained models in
Natural Language Processing
- Title(参考訳): Small-Bench NLP: 自然言語処理における単一GPU訓練モデルのベンチマーク
- Authors: Kamal Raj Kanakarajan and Bhuvana Kundumani and Malaikannan
Sankarasubbu
- Abstract要約: Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークである。
我々のELECTRA-DeBERTa小モデルアーキテクチャは、BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in the Natural Language Processing domain has given us
several State-of-the-Art (SOTA) pretrained models which can be finetuned for
specific tasks. These large models with billions of parameters trained on
numerous GPUs/TPUs over weeks are leading in the benchmark leaderboards. In
this paper, we discuss the need for a benchmark for cost and time effective
smaller models trained on a single GPU. This will enable researchers with
resource constraints experiment with novel and innovative ideas on
tokenization, pretraining tasks, architecture, fine tuning methods etc. We set
up Small-Bench NLP, a benchmark for small efficient neural language models
trained on a single GPU. Small-Bench NLP benchmark comprises of eight NLP tasks
on the publicly available GLUE datasets and a leaderboard to track the progress
of the community. Our ELECTRA-DeBERTa (15M parameters) small model architecture
achieves an average score of 81.53 which is comparable to that of BERT-Base's
82.20 (110M parameters). Our models, code and leaderboard are available at
https://github.com/smallbenchnlp
- Abstract(参考訳): 自然言語処理領域の最近の進歩により、特定のタスク用に微調整可能ないくつかの最先端(sota)事前学習モデルが提供されています。
数週間にわたって多数のGPU/TPUでトレーニングされた数十億のパラメータを持つこれらの大きなモデルは、ベンチマークのリーダーボードに導かれる。
本稿では,1つのGPUでトレーニングした小型モデルに対して,コストと時間に対するベンチマークの必要性について論じる。
これにより、リソース制約のある研究者は、トークン化、事前訓練タスク、アーキテクチャ、微調整メソッドなどに関する、新しく革新的なアイデアを試すことができる。
Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークです。
Small-Bench NLPベンチマークは、一般公開されているGLUEデータセット上の8つのNLPタスクと、コミュニティの進捗を追跡するためのリーダボードで構成される。
ELECTRA-DeBERTa (15Mパラメータ)の小型モデルアーキテクチャは,BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。
私たちのモデル、コード、リーダーボードはhttps://github.com/smallbenchnlpで利用可能です。
関連論文リスト
- LLäMmlein: Compact and Competitive German-Only Language Models from Scratch [3.7160688974577156]
我々は、2つのドイツ専用デコーダモデル、LL"aMmlein 120Mと1Bを作成し、それらをスクラッチから透過的に公開し、トレーニングデータとともに、ドイツのNLP研究コミュニティが使用できるようにしました。
モデルトレーニングには、広範なデータ前処理、カスタムなドイツのトークン化器の作成、トレーニング自体、および様々なベンチマークの最終モデルの評価など、いくつかの重要なステップが含まれていた。
論文 参考訳(メタデータ) (2024-11-17T20:44:34Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - pNLP-Mixer: an Efficient all-MLP Architecture for Language [10.634940525287014]
オンデバイスNLPのためのpNLP-Mixerモデルは、新しいプロジェクション層により高い重量効率を実現する。
MTOPとMultiATISの2つの多言語意味解析データセットに対して,pNLP-Mixerモデルの評価を行った。
私たちのモデルは、MTOPで最大7.8%のマージンで、2倍の大きさの小さなモデルの最先端を一貫して打ち負かしています。
論文 参考訳(メタデータ) (2022-02-09T09:01:29Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。
モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。
本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文 参考訳(メタデータ) (2020-10-09T21:02:47Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。