論文の概要: An Error-Guided Correction Model for Chinese Spelling Error Correction
- arxiv url: http://arxiv.org/abs/2301.06323v1
- Date: Mon, 16 Jan 2023 09:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 16:17:18.765120
- Title: An Error-Guided Correction Model for Chinese Spelling Error Correction
- Title(参考訳): 中国語スペル誤り訂正のための誤りガイド補正モデル
- Authors: Rui Sun, Xiuyu Wu, Yunfang Wu
- Abstract要約: 中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
- 参考スコア(独自算出の注目度): 13.56600372085612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although existing neural network approaches have achieved great success on
Chinese spelling correction, there is still room to improve. The model is
required to avoid over-correction and to distinguish a correct token from its
phonological and visually similar ones. In this paper, we propose an
error-guided correction model (EGCM) to improve Chinese spelling correction. By
borrowing the powerful ability of BERT, we propose a novel zero-shot error
detection method to do a preliminary detection, which guides our model to
attend more on the probably wrong tokens in encoding and to avoid modifying the
correct tokens in generating. Furthermore, we introduce a new loss function to
integrate the error confusion set, which enables our model to distinguish
easily misused tokens. Moreover, our model supports highly parallel decoding to
meet real application requirements. Experiments are conducted on widely used
benchmarks. Our model achieves superior performance against state-of-the-art
approaches by a remarkable margin, on both the correction quality and
computation speed.
- Abstract(参考訳): 既存のニューラルネットワークアプローチは中国語の綴りの訂正で大きな成功を収めているが、改善の余地はまだ残っている。
このモデルは、過度な補正を避け、正しいトークンを音韻学的および視覚的に類似したトークンと区別する必要がある。
本稿では,中国語のスペル訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
BERTの強力な能力を借りて、予備検出を行う新たなゼロショット誤り検出手法を提案する。
さらに,誤差混乱セットを統合した新しい損失関数を導入することで,容易に誤用されたトークンを識別することができる。
さらに,本モデルは実際のアプリケーション要件を満たすために,並列デコーディングをサポートする。
広く使われているベンチマークで実験が行われる。
本モデルは, 補正品質と計算速度の両方において, 最先端手法に対する優れた性能を実現する。
関連論文リスト
- Alirector: Alignment-Enhanced Chinese Grammatical Error Corrector [30.06647324563967]
中国の文法的誤り訂正(CGEC)は、自己回帰生成モデルを採用する際に深刻な過度な過度な問題に直面している。
過補正問題に対するアライメント強化補正器を提案する。
3つのCGECデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-07T05:56:54Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Mask the Correct Tokens: An Embarrassingly Simple Approach for Error
Correction [38.463639262607174]
以前の誤り訂正法は、典型的にはソース(誤り)文をエンコーダ入力とし、デコーダを介してターゲット(正しい)文を生成する。
我々は,この目標を達成するために,シンプルだが効果的なマスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-23T19:05:48Z) - From Spelling to Grammar: A New Framework for Chinese Grammatical Error
Correction [12.170714706174314]
中国語の文法的誤り訂正(CGEC)は、誤ったシーケンスから正しい文を生成することを目的としている。
本稿では,CGECタスクをスペル誤り訂正と文法的誤り訂正という2つのステップに分割する。
本稿では,スペル誤り訂正のためのゼロショット手法を提案する。
文法的誤り訂正に対処するため、ニューラルネットワークモデルを強化するために、部分音声特徴と意味クラス特徴を設計する。
論文 参考訳(メタデータ) (2022-11-03T07:30:09Z) - Grammatical Error Correction as GAN-like Sequence Labeling [45.19453732703053]
本稿では,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤り検出器とからなるGANライクなシーケンスラベリングモデルを提案する。
いくつかの評価ベンチマークの結果、提案手法は有効であり、従来の最先端のベースラインを改善することが示されている。
論文 参考訳(メタデータ) (2021-05-29T04:39:40Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。