論文の概要: A Comparison of LSTM and BERT for Small Corpus
- arxiv url: http://arxiv.org/abs/2009.05451v1
- Date: Fri, 11 Sep 2020 14:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 20:49:24.367524
- Title: A Comparison of LSTM and BERT for Small Corpus
- Title(参考訳): 小型コーパスにおけるlstmとbertの比較
- Authors: Aysu Ezen-Can
- Abstract要約: NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in the NLP field showed that transfer learning helps with
achieving state-of-the-art results for new tasks by tuning pre-trained models
instead of starting from scratch. Transformers have made a significant
improvement in creating new state-of-the-art results for many NLP tasks
including but not limited to text classification, text generation, and sequence
labeling. Most of these success stories were based on large datasets. In this
paper we focus on a real-life scenario that scientists in academia and industry
face frequently: given a small dataset, can we use a large pre-trained model
like BERT and get better results than simple models? To answer this question,
we use a small dataset for intent classification collected for building
chatbots and compare the performance of a simple bidirectional LSTM model with
a pre-trained BERT model. Our experimental results show that bidirectional LSTM
models can achieve significantly higher results than a BERT model for a small
dataset and these simple models get trained in much less time than tuning the
pre-trained counterparts. We conclude that the performance of a model is
dependent on the task and the data, and therefore before making a model choice,
these factors should be taken into consideration instead of directly choosing
the most popular model.
- Abstract(参考訳): NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習したモデルを調整することによって、新しいタスクの最先端結果を達成するのに役立つことを示している。
トランスフォーマーは、テキストの分類、テキスト生成、シーケンスラベリングなどを含む多くのnlpタスクにおいて、最先端の結果を新たに作成する上で、大幅に改善されている。
これらの成功談のほとんどは大規模なデータセットに基づいていた。
本稿では,学界や産業の科学者が頻繁に直面する現実のシナリオに焦点を当てる。小さなデータセットが与えられた場合,bertのような大規模事前学習モデルを使って,単純なモデルよりも優れた結果が得られるか?
この質問に答えるために、チャットボット構築のための意図分類のための小さなデータセットを使用し、単純な双方向LSTMモデルと事前学習されたBERTモデルの性能を比較する。
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
モデルの性能はタスクとデータに依存しており、それゆえモデルを選択する前に、最も人気のあるモデルを直接選ぶのではなく、これらの要素を考慮するべきであると結論づける。
関連論文リスト
- Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation? [70.38903555729081]
我々はAutoPET3データ中心のトラックで競合するアプローチについて述べる。
AutoPETIIIデータセットでは、データセット全体をトレーニングしたモデルが望ましくない特性を示す。
我々は、スクラッチから再トレーニングする前に、モデル損失によって測定されたトレーニングデータセットから最も簡単なサンプルを取り除き、これを対処する。
論文 参考訳(メタデータ) (2024-09-20T14:47:58Z) - Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - A synthetic data approach for domain generalization of NLI models [13.840374911669167]
自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。
合成された高品質データセットは、下流アプリケーションでゼロショット使用にNLIモデルを適用することができることを示す。
我々は、このデータに基づいてトレーニングされたモデルが、完全に下流のテスト設定に最適な一般化があることを示します。
論文 参考訳(メタデータ) (2024-02-19T18:55:16Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Short-answer scoring with ensembles of pretrained language models [0.0]
我々は、人気の小さな、ベース、そして大きな事前訓練されたトランスフォーマーベースの言語モデルの集合を微調整する。
これらのモデルのアンサンブルをテストするために、データセット上に1つのフィーチャーベースモデルをトレーニングします。
一般に、より大型のモデルの方が若干性能が良いが、それでも最先端の結果には達していない。
論文 参考訳(メタデータ) (2022-02-23T15:12:20Z) - A Comparative Study of Transformer-Based Language Models on Extractive
Question Answering [0.5079811885340514]
事前訓練された言語モデルをトレーニングし、複数の質問応答データセットでそれらを微調整する。
F1スコアを基準として、RoBERTaとBARTが事前トレーニングされたモデルは、すべてのデータセットで最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-10-07T02:23:19Z) - Multi-stage Pre-training over Simplified Multimodal Pre-training Models [35.644196343835674]
本稿では, 単語, 句, 文, 画像の粒度の異なる情報を用いて, モデルを段階的に事前訓練する多段階事前学習法を提案する。
また、限られたコーパスから多種多様な知識を効率的に捉えるために、異なる段階における情報粒度に適したいくつかの事前学習タスクを設計する。
実験結果から,本手法はすべての下流タスクにおいて元のLXMERTモデルに匹敵する性能を示し,画像テキスト検索タスクでは元のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-07-22T03:35:27Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。