論文の概要: An Error-Guided Correction Model for Chinese Spelling Error Correction
- arxiv url: http://arxiv.org/abs/2301.06323v2
- Date: Mon, 20 Mar 2023 08:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:30:31.957398
- Title: An Error-Guided Correction Model for Chinese Spelling Error Correction
- Title(参考訳): 中国語スペル誤り訂正のための誤りガイド補正モデル
- Authors: Rui Sun, Xiuyu Wu, Yunfang Wu
- Abstract要約: 中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
- 参考スコア(独自算出の注目度): 13.56600372085612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although existing neural network approaches have achieved great success on
Chinese spelling correction, there is still room to improve. The model is
required to avoid over-correction and to distinguish a correct token from its
phonological and visually similar ones. In this paper, we propose an
error-guided correction model (EGCM) to improve Chinese spelling correction. By
borrowing the powerful ability of BERT, we propose a novel zero-shot error
detection method to do a preliminary detection, which guides our model to
attend more on the probably wrong tokens in encoding and to avoid modifying the
correct tokens in generating. Furthermore, we introduce a new loss function to
integrate the error confusion set, which enables our model to distinguish
easily misused tokens. Moreover, our model supports highly parallel decoding to
meet real application requirements. Experiments are conducted on widely used
benchmarks. Our model achieves superior performance against state-of-the-art
approaches by a remarkable margin, on both the correction quality and
computation speed.
- Abstract(参考訳): 既存のニューラルネットワークアプローチは中国語の綴りの訂正で大きな成功を収めているが、改善の余地はまだ残っている。
このモデルは、過度な補正を避け、正しいトークンを音韻学的および視覚的に類似したトークンと区別する必要がある。
本稿では,中国語のスペル訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
BERTの強力な能力を借りて、予備検出を行う新たなゼロショット誤り検出手法を提案する。
さらに,誤差混乱セットを統合した新しい損失関数を導入することで,容易に誤用されたトークンを識別することができる。
さらに,本モデルは実際のアプリケーション要件を満たすために,並列デコーディングをサポートする。
広く使われているベンチマークで実験が行われる。
本モデルは, 補正品質と計算速度の両方において, 最先端手法に対する優れた性能を実現する。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - Alirector: Alignment-Enhanced Chinese Grammatical Error Corrector [25.450566841158864]
中国の文法的誤り訂正(CGEC)は、自己回帰生成モデルを採用する際に深刻な過度な過度な問題に直面している。
過補正問題に対するアライメント強化補正器を提案する。
3つのCGECデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-07T05:56:54Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Mask the Correct Tokens: An Embarrassingly Simple Approach for Error
Correction [38.463639262607174]
以前の誤り訂正法は、典型的にはソース(誤り)文をエンコーダ入力とし、デコーダを介してターゲット(正しい)文を生成する。
我々は,この目標を達成するために,シンプルだが効果的なマスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-23T19:05:48Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。