論文の概要: Lessons Learned from Applying off-the-shelf BERT: There is no Silver
Bullet
- arxiv url: http://arxiv.org/abs/2009.07238v2
- Date: Fri, 18 Sep 2020 12:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:12:39.958144
- Title: Lessons Learned from Applying off-the-shelf BERT: There is no Silver
Bullet
- Title(参考訳): 市販のbertの適用から学んだ教訓: 銀の弾丸はない
- Authors: Victor Makarenkov and Lior Rokach
- Abstract要約: 既製の単語の埋め込み、モデル、モジュールは、大規模モデルのトレーニングプロセスの緩和を目的としている。
BERTの複雑さと計算コストは予測性能の向上を保証するものではないことを示す。
- 参考スコア(独自算出の注目度): 15.43231395485711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the challenges in the NLP field is training large classification
models, a task that is both difficult and tedious. It is even harder when GPU
hardware is unavailable. The increased availability of pre-trained and
off-the-shelf word embeddings, models, and modules aim at easing the process of
training large models and achieving a competitive performance. We explore the
use of off-the-shelf BERT models and share the results of our experiments and
compare their results to those of LSTM networks and more simple baselines. We
show that the complexity and computational cost of BERT is not a guarantee for
enhanced predictive performance in the classification tasks at hand.
- Abstract(参考訳): NLP分野における課題の1つは、大きな分類モデルのトレーニングである。
GPUハードウェアが使えない場合には、さらに難しい。
トレーニング済みおよび市販のワード埋め込み、モデル、モジュールの可用性の向上は、大規模モデルのトレーニングプロセスの緩和と、競争力のあるパフォーマンスの実現を目的としている。
既製のBERTモデルを用いて実験結果を共有し,LSTMネットワークやより単純なベースラインと比較する。
BERTの複雑さと計算コストは,手前の分類タスクにおける予測性能の向上を保証するものではないことを示す。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Few-shot learning for sentence pair classification and its applications
in software engineering [0.36832029288386137]
本研究は、BERTベースのモデルを用いた代替的な数ショット学習手法の性能について検討する。
バニラファインチューニング、PET、SetFitは、トレーニングセットサイズの配列に対して、BERTベースの多数のチェックポイントと比較される。
結果から,PETは強力な数発学習手法として確立し,数百のラベル付きサンプルを用いて,フルサイズのデータセットの微調整に近い性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T18:23:52Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - BoostingBERT:Integrating Multi-Class Boosting into BERT for NLP Tasks [0.5893124686141781]
本稿では,BERTにマルチクラスブースティングを統合する新しいBoosting BERTモデルを提案する。
提案したモデルについて,GLUEデータセットと3つの中国NLUベンチマークを用いて評価した。
論文 参考訳(メタデータ) (2020-09-13T09:07:14Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。