論文の概要: CSCD-IME: Correcting Spelling Errors Generated by Pinyin IME
- arxiv url: http://arxiv.org/abs/2211.08788v1
- Date: Wed, 16 Nov 2022 09:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:51:44.142201
- Title: CSCD-IME: Correcting Spelling Errors Generated by Pinyin IME
- Title(参考訳): CSCD-IME:Pinyin IMEによるスペルエラーの修正
- Authors: Yong Hu, Fandong Meng, Jie Zhou
- Abstract要約: 本稿では,Pinyin IME(CSCD-IME)によって生成された誤りに対する中国語のスペル補正データセットを提案する。
本研究では,Pinyin IMEを用いて入力をシミュレートすることで,大規模かつ高品質な擬似データを自動構築する手法を提案する。
また、データスケール、データソース、トレーニング戦略など、擬似データを使用するための有用なガイドも提供します。
- 参考スコア(独自算出の注目度): 50.68300047558986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese Spelling Correction (CSC) is a task to detect and correct spelling
mistakes in texts. In fact, most of Chinese input is based on pinyin input
method, so the study of spelling errors in this process is more practical and
valuable. However, there is still no research dedicated to this essential
scenario. In this paper, we first present a Chinese Spelling Correction Dataset
for errors generated by pinyin IME (CSCD-IME), including 40,000 annotated
sentences from real posts of official media on Sina Weibo. Furthermore, we
propose a novel method to automatically construct large-scale and high-quality
pseudo data by simulating the input through pinyin IME. A series of analyses
and experiments on CSCD-IME show that spelling errors produced by pinyin IME
hold a particular distribution at pinyin level and semantic level and are
challenging enough. Meanwhile, our proposed pseudo-data construction method can
better fit this error distribution and improve the performance of CSC systems.
Finally, we also provide a useful guide to using pseudo data, including the
data scale, the data source, and the training strategy
- Abstract(参考訳): Chinese Spelling Correction (CSC) は、テキスト中のスペルミスを検出し、修正するタスクである。
実際、中国語入力のほとんどがピニイン入力法に基づいているため、この過程における綴り誤りの研究はより実用的で価値のあるものである。
しかし、この本質的なシナリオに関する研究はいまだにない。
本稿では,まず,sina weiboの公用メディアの実際の投稿から4万の注釈文を含む,pinyin ime (cscd-ime) が生成した誤りに対する中国語綴り補正データセットを提案する。
さらに,Pinyin IMEによる入力をシミュレートすることで,大規模かつ高品質な擬似データを自動的に構築する手法を提案する。
CSCD-IMEに関する一連の分析と実験により、ピニインIMEが生成するスペルエラーは、ピニインレベルとセマンティックレベルで特定の分布を持ち、十分に困難であることが示された。
一方,提案する疑似データ構築手法は,この誤差分布に適合し,cscシステムの性能を向上させる。
最後に,データスケールやデータソース,トレーニング戦略など,擬似データを使用するための有用なガイドを提供する。
関連論文リスト
- EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Contextual Spelling Correction with Language Model for Low-resource Setting [0.0]
文脈理解を伴うSCモデルを提供するために、小規模な単語ベースの変換器LMを訓練する。
コーパスからエラー発生確率(エラーモデル)を抽出する。
LMとエラーモデルを組み合わせることで、よく知られたノイズチャネルフレームワークを通じてSCモデルを開発することができる。
論文 参考訳(メタデータ) (2024-04-28T05:29:35Z) - Make BERT-based Chinese Spelling Check Model Enhanced by Layerwise
Attention and Gaussian Mixture Model [33.446533426654995]
我々は、BERTベースのCSCモデルを強化するために、異種知識注入フレームワークを設計する。
複数層表現を生成するために,n-gram-based layerwise self-attention の新たな形式を提案する。
実験の結果,提案手法は4つの強力なベースラインモデルに対して安定な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2023-12-27T16:11:07Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。