論文の概要: GECToR -- Grammatical Error Correction: Tag, Not Rewrite
- arxiv url: http://arxiv.org/abs/2005.12592v2
- Date: Fri, 29 May 2020 09:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:31:33.666935
- Title: GECToR -- Grammatical Error Correction: Tag, Not Rewrite
- Title(参考訳): GECToR -- 文法上のエラー訂正: タグ、リライトなし
- Authors: Kostiantyn Omelianchuk, Vitaliy Atrasevych, Artem Chernodub, Oleksandr
Skurzhanskyi
- Abstract要約: トランスフォーマーエンコーダを用いた簡易かつ効率的なGECシークエンスタグを提案する。
本システムは, 合成データに基づいて事前学習を行い, 次いで, 誤りのないコーパス, エラーのない並列コーパスの組み合わせの2段階で微調整を行う。
推論速度はTransformerベースのseq2seq GECシステムの最大10倍である。
- 参考スコア(独自算出の注目度): 19.444636864515726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a simple and efficient GEC sequence tagger using a
Transformer encoder. Our system is pre-trained on synthetic data and then
fine-tuned in two stages: first on errorful corpora, and second on a
combination of errorful and error-free parallel corpora. We design custom
token-level transformations to map input tokens to target corrections. Our best
single-model/ensemble GEC tagger achieves an $F_{0.5}$ of 65.3/66.5 on
CoNLL-2014 (test) and $F_{0.5}$ of 72.4/73.6 on BEA-2019 (test). Its inference
speed is up to 10 times as fast as a Transformer-based seq2seq GEC system. The
code and trained models are publicly available.
- Abstract(参考訳): 本稿では,Transformerエンコーダを用いた簡易かつ効率的なGCCシークエンスタグを提案する。
本システムは, 合成データに基づいて事前学習を行い, 次いで, 誤りのないコーパス, エラーのない並列コーパスの組み合わせの2段階で微調整を行う。
入力トークンをターゲット修正にマップするために、カスタムトークンレベルの変換を設計する。
我々の最高のシングルモデル/アンサンブルGCCタグは、CoNLL-2014(テスト)で65.3/66.5ドル、BEA-2019(テスト)で72.4/73.6ドルを達成する。
推論速度はTransformerベースのseq2seq GECシステムの最大10倍である。
コードとトレーニングされたモデルは公開されている。
関連論文リスト
- Multi-head Sequence Tagging Model for Grammatical Error Correction [31.538895931875565]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、ソースシーケンスとターゲットシーケンスのマッピングである。
現在のシーケンスタギングアプローチでは、あるタスクにレーザーを集中させることで、幅広い文法的誤りを処理できるという問題がある。
本稿では,学習データを効果的に活用し,関連する課題訓練信号からの情報を活用するための,新しいマルチヘッド・マルチタスク学習モデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:01:06Z) - STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。
STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。
われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文 参考訳(メタデータ) (2024-05-29T22:59:11Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Character Transformations for Non-Autoregressive GEC Tagging [3.2729625923640278]
本稿では,文字変換を自動生成する文字ベース非自己回帰GEC手法を提案する。
単語置換編集が最適であり, 形態学的に豊かな言語における綴り, 発音, 誤りの爆発を引き起こす可能性がある。
チェコ語、ドイツ語、ロシア語の文字変換モデルを訓練し、自己回帰システムと比較して、しっかりとした結果と劇的なスピードアップを達成した。
論文 参考訳(メタデータ) (2021-11-17T18:30:34Z) - Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes [0.0]
我々は,S2Sデコード中にCTC-Prefix-Scoreを使用することを提案する。
ビームサーチ中、CTC信頼行列に従って無効となるパスがペナル化される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
論文 参考訳(メタデータ) (2021-10-12T11:40:05Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Instantaneous Grammatical Error Correction with Shallow Aggressive
Decoding [57.08875260900373]
即時文法的誤り訂正(GEC)のためのトランスフォーマーのオンライン推論効率を改善するために,Shallow Aggressive Decoding (SAD)を提案する。
SADは、計算並列性を改善するために、各ステップで1つのトークンだけを復号するのではなく、可能な限り多くのトークンを並列に復号する。
英語と中国語のGECベンチマークでの実験では、アグレッシブな復号化がオンライン推論の大幅なスピードアップをもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-09T10:30:59Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Stronger Baselines for Grammatical Error Correction Using Pretrained
Encoder-Decoder Model [24.51571980021599]
文法誤り訂正のための汎用事前学習エンコーダ・デコーダモデルとしての双方向・自動回帰変換器(BART)の有用性について検討する。
単言語および多言語BARTモデルは、GECにおいて高い性能を達成し、その結果の1つは、現在の英語GECの強みに匹敵する結果である。
論文 参考訳(メタデータ) (2020-05-24T22:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。