論文の概要: A BERT-based Unsupervised Grammatical Error Correction Framework
- arxiv url: http://arxiv.org/abs/2303.17367v1
- Date: Thu, 30 Mar 2023 13:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:29:54.327661
- Title: A BERT-based Unsupervised Grammatical Error Correction Framework
- Title(参考訳): BERTに基づく教師なし文法的誤り訂正フレームワーク
- Authors: Nankai Lin, Hongbin Zhang, Menglan Shen, Yu Wang, Shengyi Jiang, Aimin
Yang
- Abstract要約: 文法的誤り訂正(GEC)は自然言語処理技術の課題である。
低リソース言語では、言語モデルスコアリングに基づく現在の教師なしGCCがよく機能する。
本研究では,BERT をベースとした非教師付き GEC フレームワークを提案し,GEC をマルチクラス分類タスクとみなす。
- 参考スコア(独自算出の注目度): 9.431453382607845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grammatical error correction (GEC) is a challenging task of natural language
processing techniques. While more attempts are being made in this approach for
universal languages like English or Chinese, relatively little work has been
done for low-resource languages for the lack of large annotated corpora. In
low-resource languages, the current unsupervised GEC based on language model
scoring performs well. However, the pre-trained language model is still to be
explored in this context. This study proposes a BERT-based unsupervised GEC
framework, where GEC is viewed as multi-class classification task. The
framework contains three modules: data flow construction module, sentence
perplexity scoring module, and error detecting and correcting module. We
propose a novel scoring method for pseudo-perplexity to evaluate a sentence's
probable correctness and construct a Tagalog corpus for Tagalog GEC research.
It obtains competitive performance on the Tagalog corpus we construct and
open-source Indonesian corpus and it demonstrates that our framework is
complementary to baseline method for low-resource GEC task.
- Abstract(参考訳): 文法的誤り訂正(GEC)は自然言語処理技術の課題である。
英語や中国語のような普遍言語に対するこのアプローチでは、より多くの試みがなされているが、大きな注釈付きコーパスがないため、低リソース言語に対する作業は比較的少ない。
低リソース言語では、言語モデルに基づく現在の教師なしGCCがよく機能する。
しかし、事前訓練された言語モデルは、この文脈で検討される。
本研究では,BERT をベースとした非教師付き GEC フレームワークを提案し,GEC をマルチクラス分類タスクとみなす。
このフレームワークには、データフロー構築モジュール、文パープレキシティスコアリングモジュール、エラー検出および修正モジュールの3つのモジュールが含まれている。
本稿では,文の真偽を推定し,タガログGEC研究のためのタガログコーパスを構築するための,擬似パープレクティリティのための新しいスコアリング手法を提案する。
インドネシア語コーパスを構築・オープンソース化したタガログコーパス上での競争性能を向上し,低リソースGECタスクのベースライン手法と相補的であることを示す。
関連論文リスト
- A Simple Yet Effective Corpus Construction Framework for Indonesian Grammatical Error Correction [7.378963590826542]
低リソース言語でGECコーパスを構築するためのフレームワークを提案する。
具体的には、インドネシア語を研究言語として重視する。
提案手法を用いてインドネシアGECの評価コーパスを構築した。
論文 参考訳(メタデータ) (2024-10-28T08:44:56Z) - Chain-of-Translation Prompting (CoTR): A Novel Prompting Technique for Low Resource Languages [0.4499833362998489]
Chain of Translation Prompting (CoTR)は、低リソース言語における言語モデルの性能を高めるために設計された新しい戦略である。
CoTR再構成は、まず入力コンテキストを低リソース言語から高リソース言語に翻訳する。
本稿では,この手法の有効性を低リソースのインディア言語であるMarathiのケーススタディを通じて実証する。
論文 参考訳(メタデータ) (2024-09-06T17:15:17Z) - Contextual Spelling Correction with Language Model for Low-resource Setting [0.0]
文脈理解を伴うSCモデルを提供するために、小規模な単語ベースの変換器LMを訓練する。
コーパスからエラー発生確率(エラーモデル)を抽出する。
LMとエラーモデルを組み合わせることで、よく知られたノイズチャネルフレームワークを通じてSCモデルを開発することができる。
論文 参考訳(メタデータ) (2024-04-28T05:29:35Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。