論文の概要: Exploring the Capacity of a Large-scale Masked Language Model to
Recognize Grammatical Errors
- arxiv url: http://arxiv.org/abs/2108.12216v1
- Date: Fri, 27 Aug 2021 10:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:18:30.453382
- Title: Exploring the Capacity of a Large-scale Masked Language Model to
Recognize Grammatical Errors
- Title(参考訳): 文法的誤り認識のための大規模マスキング言語モデルの能力の検討
- Authors: Ryo Nagata, Manabu Kimura, and Kazuaki Hanawa
- Abstract要約: トレーニングデータの5~10%は、BERTに基づく誤り検出法で、非言語モデルに基づく手法と同等の性能を実現するのに十分であることを示す。
また、擬似誤差データを用いて、様々な種類の誤りを認識するための学習ルールにおいて、実際にそのような優れた特性を示すことを示す。
- 参考スコア(独自算出の注目度): 3.55517579369797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the capacity of a language model-based method for
grammatical error detection in detail. We first show that 5 to 10% of training
data are enough for a BERT-based error detection method to achieve performance
equivalent to a non-language model-based method can achieve with the full
training data; recall improves much faster with respect to training data size
in the BERT-based method than in the non-language model method while precision
behaves similarly. These suggest that (i) the BERT-based method should have a
good knowledge of grammar required to recognize certain types of error and that
(ii) it can transform the knowledge into error detection rules by fine-tuning
with a few training samples, which explains its high generalization ability in
grammatical error detection. We further show with pseudo error data that it
actually exhibits such nice properties in learning rules for recognizing
various types of error. Finally, based on these findings, we explore a
cost-effective method for detecting grammatical errors with feedback comments
explaining relevant grammatical rules to learners.
- Abstract(参考訳): 本稿では,文法的誤り検出のための言語モデルに基づく手法のキャパシティを詳細に検討する。
まず,学習データのうち5~10%は,非言語モデルベース法と同等の性能を達成するために,bertベースの誤り検出法では十分であることを示すとともに,精度が同じように振る舞う一方で,bertベースの手法ではトレーニングデータサイズがより高速に向上することを示す。
これらのことから, (i) BERT に基づく手法は, ある種の誤りを認識するのに必要な文法的知識を持つべきであり, (ii) 文法的誤り検出における高い一般化能力を説明するために, 少数のトレーニングサンプルを用いて微調整することで, 誤り検出規則に変換できることが示唆された。
さらに、様々な種類の誤りを認識するための学習ルールにおいて、実際にそのような優れた特性を示す擬似エラーデータを示す。
最後に,これらの知見に基づいて,学習者に関連する文法規則を説明するフィードバックコメントを用いて,文法的誤りを検出するための費用対効果について検討する。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Detecting Label Errors using Pre-Trained Language Models [37.82128817976385]
学習済みの大規模言語モデルでは,データセットのラベルエラーを識別する能力が非常に高いことを示す。
クラウドソーシングされたデータからリアルで人間指向のラベルノイズを生成するための新しい手法を提案し,この手法の有効性をTweetNLP上で実証する。
論文 参考訳(メタデータ) (2022-05-25T11:59:39Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Grammatical Error Generation Based on Translated Fragments [0.0]
英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
論文 参考訳(メタデータ) (2021-04-20T12:43:40Z) - Spelling Error Correction with Soft-Masked BERT [11.122964733563117]
タスクの最先端方法は、BERTに基づいて、文の各位置で修正する候補のリストから文字を選択する。
BERTは各位置にエラーがあるかどうかを検出するのに十分な能力を持っていないため、この手法の精度は準最適である。
本稿では,エラー検出のためのネットワークと,BERTに基づく誤り訂正のためのネットワークからなる,上記の問題に対処する新しいニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-15T09:02:38Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。