論文の概要: LM-Critic: Language Models for Unsupervised Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2109.06822v1
- Date: Tue, 14 Sep 2021 17:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 18:42:58.315278
- Title: LM-Critic: Language Models for Unsupervised Grammatical Error Correction
- Title(参考訳): LM-Critic:教師なし文法誤り訂正のための言語モデル
- Authors: Michihiro Yasunaga, Jure Leskovec, Percy Liang
- Abstract要約: 文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
- 参考スコア(独自算出の注目度): 128.9174409251852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a model for grammatical error correction (GEC) requires a set of
labeled ungrammatical / grammatical sentence pairs, but manually annotating
such pairs can be expensive. Recently, the Break-It-Fix-It (BIFI) framework has
demonstrated strong results on learning to repair a broken program without any
labeled examples, but this relies on a perfect critic (e.g., a compiler) that
returns whether an example is valid or not, which does not exist for the GEC
task. In this work, we show how to leverage a pretrained language model (LM) in
defining an LM-Critic, which judges a sentence to be grammatical if the LM
assigns it a higher probability than its local perturbations. We apply this
LM-Critic and BIFI along with a large set of unlabeled sentences to bootstrap
realistic ungrammatical / grammatical pairs for training a corrector. We
evaluate our approach on GEC datasets across multiple domains (CoNLL-2014,
BEA-2019, GMEG-wiki and GMEG-yahoo) and show that it outperforms existing
methods in both the unsupervised setting (+7.7 F0.5) and the supervised setting
(+0.5 F0.5).
- Abstract(参考訳): 文法的誤り訂正モデル(GEC)の訓練には、非文法的/文法的文対のラベル付きセットが必要であるが、手動で注釈をつけることは高価である。
最近、b break-it-fix-it(bifi)フレームワークは、ラベル付きサンプルなしで壊れたプログラムを修復する学習において、強力な結果を示しているが、これは、gecタスクには存在しないサンプルが有効かどうかを返却する完全な批評家(例えばコンパイラ)に依存している。
本研究は,LM-Critic の定義において事前訓練された言語モデル(LM)を活用する方法を示し,その文が局所的な摂動よりも高い確率を割り当てる場合,文を文法的に判断する。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
我々は,複数の領域にわたるGECデータセット(CoNLL-2014,BEA-2019,GMEG-wiki,GMEG-yahoo)に対するアプローチを評価し,教師なし設定(+7.7 F0.5)と教師なし設定(+0.5 F0.5)の両方において既存の手法よりも優れていることを示す。
関連論文リスト
- LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Prompting open-source and commercial language models for grammatical
error correction of English learner text [19.192210777082053]
大規模言語モデル(LLM)は、流動的で文法的なテキストを生成するよう促すことができる。
確立したベンチマークデータセット上で, 文法的誤り訂正(GEC)におけるLLMの性能評価を行った。
いくつかのオープンソースモデルは、最小限の編集ベンチマークで商用モデルよりも優れており、いくつかの設定ではゼロショットプロンプトは、少数ショットプロンプトと同じくらい競争力がある。
論文 参考訳(メタデータ) (2024-01-15T14:19:47Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Leveraging Denoised Abstract Meaning Representation for Grammatical
Error Correction [53.55440811942249]
文法的誤り訂正(英: Grammatical Error Correction, GEC)とは、誤りのある文を文法的に正しい、意味的に一貫性のある、一貫性のある文に修正する作業である。
本稿では,AMRを付加知識として組み込んだSeq-to-seqモデルであるAMR-GECを提案する。
論文 参考訳(メタデータ) (2023-07-05T09:06:56Z) - Are Pre-trained Language Models Useful for Model Ensemble in Chinese
Grammatical Error Correction? [10.302225525539003]
4つの洗練された単一モデルを持つ強力なPLMに基づくアンサンブル戦略を探索する。
性能は向上しないが、PLMベースのアンサンブル後にさらに悪化する。
論文 参考訳(メタデータ) (2023-05-24T14:18:52Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - A BERT-based Unsupervised Grammatical Error Correction Framework [9.431453382607845]
文法的誤り訂正(GEC)は自然言語処理技術の課題である。
低リソース言語では、言語モデルスコアリングに基づく現在の教師なしGCCがよく機能する。
本研究では,BERT をベースとした非教師付き GEC フレームワークを提案し,GEC をマルチクラス分類タスクとみなす。
論文 参考訳(メタデータ) (2023-03-30T13:29:49Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Adversarial Grammatical Error Correction [2.132096006921048]
本稿では,ジェネレータ・ディスクリミネータ・フレームワークを用いた文法誤り訂正(GEC)に対する逆学習手法を提案する。
我々は、識別器とジェネレータの両方を並列テキストで事前訓練し、さらにポリシー勾配法を用いて微調整する。
FCE, CoNLL-14, BEA-19データセットによる実験結果から, Adversarial-GEC は NMT ベースのベースラインに比べて競争力のある GEC 品質を達成できることが示された。
論文 参考訳(メタデータ) (2020-10-06T00:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。