論文の概要: Enhancing Grammatical Error Detection using BERT with Cleaned Lang-8 Dataset
- arxiv url: http://arxiv.org/abs/2411.15523v1
- Date: Sat, 23 Nov 2024 10:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:17.617966
- Title: Enhancing Grammatical Error Detection using BERT with Cleaned Lang-8 Dataset
- Title(参考訳): クリーンLang-8データセットを用いたBERTによる文法誤差検出の高速化
- Authors: Rahul Nihalani, Kushal Shah,
- Abstract要約: 本稿では,文法的誤り検出(GED)のためのLLMモデルの改良について述べる。
GEDへの従来のアプローチには手作業で設計された機能が含まれていたが、最近、ニューラルネットワーク(NN)がこれらの機能の発見を自動化した。
BERTベースの未使用モデルでは、F1スコアは0.91で、トレーニングデータの精度は98.49%であった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents an improved LLM based model for Grammatical Error Detection (GED), which is a very challenging and equally important problem for many applications. The traditional approach to GED involved hand-designed features, but recently, Neural Networks (NN) have automated the discovery of these features, improving performance in GED. Traditional rule-based systems have an F1 score of 0.50-0.60 and earlier machine learning models give an F1 score of 0.65-0.75, including decision trees and simple neural networks. Previous deep learning models, for example, Bi-LSTM, have reported F1 scores within the range from 0.80 to 0.90. In our study, we have fine-tuned various transformer models using the Lang8 dataset rigorously cleaned by us. In our experiments, the BERT-base-uncased model gave an impressive performance with an F1 score of 0.91 and accuracy of 98.49% on training data and 90.53% on testing data, also showcasing the importance of data cleaning. Increasing model size using BERT-large-uncased or RoBERTa-large did not give any noticeable improvements in performance or advantage for this task, underscoring that larger models are not always better. Our results clearly show how far rigorous data cleaning and simple transformer-based models can go toward significantly improving the quality of GED.
- Abstract(参考訳): 本稿では,LLMに基づく文法誤り検出(GED)モデルの改良について述べる。
GEDの従来のアプローチには手作業で設計された機能が含まれていたが、最近、ニューラルネットワーク(NN)がこれらの機能の発見を自動化し、GEDのパフォーマンスが向上した。
従来のルールベースのシステムはF1スコアが0.50-0.60であり、初期の機械学習モデルでは決定木や単純なニューラルネットワークを含む0.65-0.75のスコアが与えられた。
これまでのディープラーニングモデル、例えばBi-LSTMでは、0.80から0.90の範囲でF1スコアが報告されている。
本研究では,Lang8データセットを厳密に掃除し,様々なトランスフォーマーモデルを微調整した。
我々の実験では、BERTベース非ケースモデルでは、F1スコアが0.91、トレーニングデータが98.49%、テストデータが90.53%、データクリーニングの重要性が示された。
BERT-large-uncased や RoBERTa-large を使用したモデルサイズの増加は、このタスクに顕著なパフォーマンス改善やアドバンテージを与えなかった。
以上の結果から,厳密なデータクリーニングとシンプルなトランスフォーマーモデルが,GEDの品質向上にいかに貢献できるかが明らかとなった。
関連論文リスト
- Comparison of Machine Learning Approaches for Classifying Spinodal Events [3.030969076856776]
我々は、いくつかのアンサンブルモデル(大投票、AdaBoost)とともに、最先端モデル(MobileViT、NAT、EfficientNet、CNN)を評価する。
以上の結果から,NATとMobileViTは他のモデルよりも優れており,トレーニングデータとテストデータの両方において,最高の測定精度,AUC,F1スコアを達成できた。
論文 参考訳(メタデータ) (2024-10-13T07:27:00Z) - A Comparative Study of Hybrid Models in Health Misinformation Text Classification [0.43695508295565777]
本研究では、オンラインソーシャルネットワーク(OSN)上での新型コロナウイルス関連誤情報検出における機械学習(ML)モデルとディープラーニング(DL)モデルの有効性を評価する。
本研究は, 従来のMLアルゴリズムよりも, DLおよびハイブリッドDLモデルの方が, OSN上の新型コロナウイルスの誤情報を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-10-08T19:43:37Z) - Learning from Negative Samples in Generative Biomedical Entity Linking [20.660717375784596]
陰性サンプルを用いて生成BioELモデルをトレーニングする最初のフレームワークであるANGELを紹介する。
ANGELで微調整したモデルでは,5つのベンチマークで平均1.4%の精度で,従来の最良ベースラインモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-29T12:44:01Z) - Convolutional Neural Networks for the classification of glitches in
gravitational-wave data streams [52.77024349608834]
我々は、高度LIGO検出器のデータから過渡ノイズ信号(グリッチ)と重力波を分類する。
どちらも、Gravity Spyデータセットを使用して、スクラッチからトレーニングされた、教師付き学習アプローチのモデルを使用します。
また、擬似ラベルの自動生成による事前学習モデルの自己教師型アプローチについても検討する。
論文 参考訳(メタデータ) (2023-03-24T11:12:37Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。