論文の概要: Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity
- arxiv url: http://arxiv.org/abs/2210.10996v1
- Date: Thu, 20 Oct 2022 03:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:22:33.103164
- Title: Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity
- Title(参考訳): 文字発音予測による中国語スペルチェックの改善:適応性と粒度の影響
- Authors: Jiahao Li, Quan Wang, Zhendong Mao, Junbo Guo, Yanyan Yang, Yongdong
Zhang
- Abstract要約: 中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
- 参考スコア(独自算出の注目度): 76.20568599642799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese spelling check (CSC) is a fundamental NLP task that detects and
corrects spelling errors in Chinese texts. As most of these spelling errors are
caused by phonetic similarity, effectively modeling the pronunciation of
Chinese characters is a key factor for CSC. In this paper, we consider
introducing an auxiliary task of Chinese pronunciation prediction (CPP) to
improve CSC, and, for the first time, systematically discuss the adaptivity and
granularity of this auxiliary task. We propose SCOPE which builds on top of a
shared encoder two parallel decoders, one for the primary CSC task and the
other for a fine-grained auxiliary CPP task, with a novel adaptive weighting
scheme to balance the two tasks. In addition, we design a delicate iterative
correction strategy for further improvements during inference. Empirical
evaluation shows that SCOPE achieves new state-of-the-art on three CSC
benchmarks, demonstrating the effectiveness and superiority of the auxiliary
CPP task. Comprehensive ablation studies further verify the positive effects of
adaptivity and granularity of the task. Code and data used in this paper are
publicly available at https://github.com/jiahaozhenbang/SCOPE.
- Abstract(参考訳): 中国語スペルチェック(英語: Chinese spelling check, CSC)は、中国語テキストのスペルエラーを検出し修正する基本的なNLPタスクである。
これらのスペル誤りのほとんどは音韻的類似によって引き起こされるため、漢字の発音を効果的にモデル化することがCSCの重要な要素である。
本稿では,cscを改善するための中国語発音予測(cpp)の補助タスクの導入を検討するとともに,この補助タスクの適応性と粒度を体系的に議論する。
共用エンコーダ2つの並列デコーダ上に構築されたSCOPE, 第一のCSCタスク用, 第二のCPPタスク用, 第二のCPPタスク用, 二つのタスクのバランスをとるための適応重み付け方式を提案する。
さらに, 推論中のさらなる改善のために, 繊細な反復補正戦略を考案する。
経験的評価により,SCOPEは3つのCSCベンチマークで新たな最先端性を実現し,補助的なCPPタスクの有効性と優位性を示す。
包括的アブレーション研究は、タスクの適応性と粒度の正の効果をさらに検証する。
この論文で使用されるコードとデータはhttps://github.com/jiahaozhenbang/SCOPEで公開されている。
関連論文リスト
- EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Contextual Similarity is More Valuable than Character Similarity:
Curriculum Learning for Chinese Spell Checking [26.93594761258908]
中国語のスペルチェック(CSC)タスクは、中国語のスペルエラーを検出し、修正することを目的としている。
文脈的類似性をよりよく活用するために,CSCタスクのためのシンプルで効果的なカリキュラム学習フレームワークを提案する。
設計したモデルに依存しないフレームワークの助けを借りて、既存のCSCモデルは、人間が漢字を学習するときに、容易から困難に訓練される。
論文 参考訳(メタデータ) (2022-07-17T03:12:27Z) - The Past Mistake is the Future Wisdom: Error-driven Contrastive
Probability Optimization for Chinese Spell Checking [32.8563506271794]
中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。
プレトレーニング言語モデル(PLM)は、CSCタスクの進行を促進する。
本稿では,CSCタスクに対する誤り駆動型Contrastive Probability Optimizationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-02T09:58:56Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。