論文の概要: GECToR -- Grammatical Error Correction: Tag, Not Rewrite
- arxiv url: http://arxiv.org/abs/2005.12592v2
- Date: Fri, 29 May 2020 09:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:31:33.666935
- Title: GECToR -- Grammatical Error Correction: Tag, Not Rewrite
- Title(参考訳): GECToR -- 文法上のエラー訂正: タグ、リライトなし
- Authors: Kostiantyn Omelianchuk, Vitaliy Atrasevych, Artem Chernodub, Oleksandr
Skurzhanskyi
- Abstract要約: トランスフォーマーエンコーダを用いた簡易かつ効率的なGECシークエンスタグを提案する。
本システムは, 合成データに基づいて事前学習を行い, 次いで, 誤りのないコーパス, エラーのない並列コーパスの組み合わせの2段階で微調整を行う。
推論速度はTransformerベースのseq2seq GECシステムの最大10倍である。
- 参考スコア(独自算出の注目度): 19.444636864515726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a simple and efficient GEC sequence tagger using a
Transformer encoder. Our system is pre-trained on synthetic data and then
fine-tuned in two stages: first on errorful corpora, and second on a
combination of errorful and error-free parallel corpora. We design custom
token-level transformations to map input tokens to target corrections. Our best
single-model/ensemble GEC tagger achieves an $F_{0.5}$ of 65.3/66.5 on
CoNLL-2014 (test) and $F_{0.5}$ of 72.4/73.6 on BEA-2019 (test). Its inference
speed is up to 10 times as fast as a Transformer-based seq2seq GEC system. The
code and trained models are publicly available.
- Abstract(参考訳): 本稿では,Transformerエンコーダを用いた簡易かつ効率的なGCCシークエンスタグを提案する。
本システムは, 合成データに基づいて事前学習を行い, 次いで, 誤りのないコーパス, エラーのない並列コーパスの組み合わせの2段階で微調整を行う。
入力トークンをターゲット修正にマップするために、カスタムトークンレベルの変換を設計する。
我々の最高のシングルモデル/アンサンブルGCCタグは、CoNLL-2014(テスト)で65.3/66.5ドル、BEA-2019(テスト)で72.4/73.6ドルを達成する。
推論速度はTransformerベースのseq2seq GECシステムの最大10倍である。
コードとトレーニングされたモデルは公開されている。
関連論文リスト
- GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Character Transformations for Non-Autoregressive GEC Tagging [3.2729625923640278]
本稿では,文字変換を自動生成する文字ベース非自己回帰GEC手法を提案する。
単語置換編集が最適であり, 形態学的に豊かな言語における綴り, 発音, 誤りの爆発を引き起こす可能性がある。
チェコ語、ドイツ語、ロシア語の文字変換モデルを訓練し、自己回帰システムと比較して、しっかりとした結果と劇的なスピードアップを達成した。
論文 参考訳(メタデータ) (2021-11-17T18:30:34Z) - Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes [0.0]
我々は,S2Sデコード中にCTC-Prefix-Scoreを使用することを提案する。
ビームサーチ中、CTC信頼行列に従って無効となるパスがペナル化される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
論文 参考訳(メタデータ) (2021-10-12T11:40:05Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。
批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。
これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。
BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文 参考訳(メタデータ) (2021-06-11T20:31:04Z) - Instantaneous Grammatical Error Correction with Shallow Aggressive
Decoding [57.08875260900373]
即時文法的誤り訂正(GEC)のためのトランスフォーマーのオンライン推論効率を改善するために,Shallow Aggressive Decoding (SAD)を提案する。
SADは、計算並列性を改善するために、各ステップで1つのトークンだけを復号するのではなく、可能な限り多くのトークンを並列に復号する。
英語と中国語のGECベンチマークでの実験では、アグレッシブな復号化がオンライン推論の大幅なスピードアップをもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-09T10:30:59Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Stronger Baselines for Grammatical Error Correction Using Pretrained
Encoder-Decoder Model [24.51571980021599]
文法誤り訂正のための汎用事前学習エンコーダ・デコーダモデルとしての双方向・自動回帰変換器(BART)の有用性について検討する。
単言語および多言語BARTモデルは、GECにおいて高い性能を達成し、その結果の1つは、現在の英語GECの強みに匹敵する結果である。
論文 参考訳(メタデータ) (2020-05-24T22:13:24Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。