論文の概要: CSCD-IME: Correcting Spelling Errors Generated by Pinyin IME
- arxiv url: http://arxiv.org/abs/2211.08788v1
- Date: Wed, 16 Nov 2022 09:25:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:51:44.142201
- Title: CSCD-IME: Correcting Spelling Errors Generated by Pinyin IME
- Title(参考訳): CSCD-IME:Pinyin IMEによるスペルエラーの修正
- Authors: Yong Hu, Fandong Meng, Jie Zhou
- Abstract要約: 本稿では,Pinyin IME(CSCD-IME)によって生成された誤りに対する中国語のスペル補正データセットを提案する。
本研究では,Pinyin IMEを用いて入力をシミュレートすることで,大規模かつ高品質な擬似データを自動構築する手法を提案する。
また、データスケール、データソース、トレーニング戦略など、擬似データを使用するための有用なガイドも提供します。
- 参考スコア(独自算出の注目度): 50.68300047558986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese Spelling Correction (CSC) is a task to detect and correct spelling
mistakes in texts. In fact, most of Chinese input is based on pinyin input
method, so the study of spelling errors in this process is more practical and
valuable. However, there is still no research dedicated to this essential
scenario. In this paper, we first present a Chinese Spelling Correction Dataset
for errors generated by pinyin IME (CSCD-IME), including 40,000 annotated
sentences from real posts of official media on Sina Weibo. Furthermore, we
propose a novel method to automatically construct large-scale and high-quality
pseudo data by simulating the input through pinyin IME. A series of analyses
and experiments on CSCD-IME show that spelling errors produced by pinyin IME
hold a particular distribution at pinyin level and semantic level and are
challenging enough. Meanwhile, our proposed pseudo-data construction method can
better fit this error distribution and improve the performance of CSC systems.
Finally, we also provide a useful guide to using pseudo data, including the
data scale, the data source, and the training strategy
- Abstract(参考訳): Chinese Spelling Correction (CSC) は、テキスト中のスペルミスを検出し、修正するタスクである。
実際、中国語入力のほとんどがピニイン入力法に基づいているため、この過程における綴り誤りの研究はより実用的で価値のあるものである。
しかし、この本質的なシナリオに関する研究はいまだにない。
本稿では,まず,sina weiboの公用メディアの実際の投稿から4万の注釈文を含む,pinyin ime (cscd-ime) が生成した誤りに対する中国語綴り補正データセットを提案する。
さらに,Pinyin IMEによる入力をシミュレートすることで,大規模かつ高品質な擬似データを自動的に構築する手法を提案する。
CSCD-IMEに関する一連の分析と実験により、ピニインIMEが生成するスペルエラーは、ピニインレベルとセマンティックレベルで特定の分布を持ち、十分に困難であることが示された。
一方,提案する疑似データ構築手法は,この誤差分布に適合し,cscシステムの性能を向上させる。
最後に,データスケールやデータソース,トレーニング戦略など,擬似データを使用するための有用なガイドを提供する。
関連論文リスト
- Exploring the Usage of Chinese Pinyin in Pretraining [28.875174965608554]
ピニインは、ASR導入エラーに対するエラー訂正や耐故障性など、多くのシナリオにおいて不可欠である。
そこで本研究では,PmBERTと呼ばれる事前学習モデルにPinyinを使用する方法について検討し,新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-08T01:26:44Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CSED: A Chinese Semantic Error Diagnosis Corpus [52.92010408053424]
関連するデータセットが欠如している中国の意味的誤り診断(CSED)の複雑な問題について検討する。
意味的誤りの研究は、それらが非常に一般的であり、統語的不規則や理解の問題に繋がる可能性があるため重要である。
本稿では,CSEDタスクに適応する構文認識モデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T05:33:31Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。
凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文 参考訳(メタデータ) (2022-03-01T06:05:07Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。