論文の概要: A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction
- arxiv url: http://arxiv.org/abs/2409.04150v1
- Date: Fri, 6 Sep 2024 09:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:16:11.499535
- Title: A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction
- Title(参考訳): コインには2つの側面がある:中国語のスペル訂正のための新しい検出器・コレクターフレームワーク
- Authors: Xiangke Zeng, Zuchao Li, Lefei Zhang, Ping Wang, Hongqiu Wu, Hai Zhao,
- Abstract要約: 中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
- 参考スコア(独自算出の注目度): 79.52464132360618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Spelling Correction (CSC) stands as a foundational Natural Language Processing (NLP) task, which primarily focuses on the correction of erroneous characters in Chinese texts. Certain existing methodologies opt to disentangle the error correction process, employing an additional error detector to pinpoint error positions. However, owing to the inherent performance limitations of error detector, precision and recall are like two sides of the coin which can not be both facing up simultaneously. Furthermore, it is also worth investigating how the error position information can be judiciously applied to assist the error correction. In this paper, we introduce a novel approach based on error detector-corrector framework. Our detector is designed to yield two error detection results, each characterized by high precision and recall. Given that the occurrence of errors is context-dependent and detection outcomes may be less precise, we incorporate the error detection results into the CSC task using an innovative feature fusion strategy and a selective masking strategy. Empirical experiments conducted on mainstream CSC datasets substantiate the efficacy of our proposed method.
- Abstract(参考訳): 中国語のSpelling Correction(CSC)は、中国語のテキストにおける誤字の訂正を主眼とする、基礎的な自然言語処理(NLP)タスクである。
既存の手法では、エラー訂正プロセスのアンタングルを選択でき、追加のエラー検出器を用いてエラー位置をピンポイントする。
しかし、エラー検出の固有の性能制限のため、精度とリコールはコインの両面が同時に対向することができないようなものである。
さらに、エラー訂正を支援するために、エラー位置情報を司法的に適用する方法も検討する価値がある。
本稿では,エラー検出・補正フレームワークに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
エラーの発生が文脈依存であり,検出結果の精度が低いことを考慮し,革新的な特徴融合戦略と選択的マスキング戦略を用いて,誤り検出結果をCSCタスクに組み込む。
提案手法の有効性を実証するために, 主流のCSCデータセットを用いた実証実験を行った。
関連論文リスト
- LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - An Error-Guided Correction Model for Chinese Spelling Error Correction [13.56600372085612]
中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
論文 参考訳(メタデータ) (2023-01-16T09:27:45Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - Spelling Error Correction with Soft-Masked BERT [11.122964733563117]
タスクの最先端方法は、BERTに基づいて、文の各位置で修正する候補のリストから文字を選択する。
BERTは各位置にエラーがあるかどうかを検出するのに十分な能力を持っていないため、この手法の精度は準最適である。
本稿では,エラー検出のためのネットワークと,BERTに基づく誤り訂正のためのネットワークからなる,上記の問題に対処する新しいニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-15T09:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。