論文の概要: The Past Mistake is the Future Wisdom: Error-driven Contrastive
Probability Optimization for Chinese Spell Checking
- arxiv url: http://arxiv.org/abs/2203.00991v1
- Date: Wed, 2 Mar 2022 09:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:51:04.114846
- Title: The Past Mistake is the Future Wisdom: Error-driven Contrastive
Probability Optimization for Chinese Spell Checking
- Title(参考訳): 過去における誤りは未来の知恵 - 中国語スペルチェックのための誤り駆動型コントラスト確率最適化
- Authors: Yinghui Li, Qingyu Zhou, Yangning Li, Zhongli Li, Ruiyang Liu, Rongyi
Sun, Zizhen Wang, Chao Li, Yunbo Cao, Hai-Tao Zheng
- Abstract要約: 中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。
プレトレーニング言語モデル(PLM)は、CSCタスクの進行を促進する。
本稿では,CSCタスクに対する誤り駆動型Contrastive Probability Optimizationフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.8563506271794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Spell Checking (CSC) aims to detect and correct Chinese spelling
errors, which are mainly caused by the phonological or visual similarity.
Recently, pre-trained language models (PLMs) promote the progress of CSC task.
However, there exists a gap between the learned knowledge of PLMs and the goal
of CSC task. PLMs focus on the semantics in text and tend to correct the
erroneous characters to semantically proper or commonly used ones, but these
aren't the ground-truth corrections. To address this issue, we propose an
Error-driven COntrastive Probability Optimization (ECOPO) framework for CSC
task. ECOPO refines the knowledge representations of PLMs, and guides the model
to avoid predicting these common characters through an error-driven way.
Particularly, ECOPO is model-agnostic and it can be combined with existing CSC
methods to achieve better performance. Extensive experiments and detailed
analyses on SIGHAN datasets demonstrate that ECOPO is simple yet effective.
- Abstract(参考訳): 中国語のスペルチェック(csc)は、主に音韻学的または視覚的類似性によって引き起こされる中国語のスペルエラーの検出と修正を目的としている。
近年,プレトレーニング言語モデル (PLM) はCSCタスクの進行を促進する。
しかし、PLMの学習知識とCSCタスクの目標との間にはギャップがある。
PLMはテキストのセマンティクスに重点を置いており、誤字を意味的に適切な文字または一般的に使用される文字に修正する傾向があるが、これらは基礎的な修正ではない。
この問題に対処するために,CSCタスクのためのエラー駆動型共役確率最適化(ECOPO)フレームワークを提案する。
ECOPO は PLM の知識表現を洗練し、これらの共通文字をエラー駆動方式で予測しないようにモデルを導く。
特に、ECOPOはモデルに依存しないため、既存のCSCメソッドと組み合わせてパフォーマンスを向上させることができる。
SIGHANデータセットに関する大規模な実験と詳細な分析により、ECOPOは単純だが有効であることが示された。
関連論文リスト
- A Simple yet Effective Training-free Prompt-free Approach to Chinese Spelling Correction Based on Large Language Models [39.35525969831397]
本研究は、中国語スペル訂正(CSC)タスクに大規模言語モデル(LLM)を活用するための、簡単なトレーニングフリーなプロンプトフリーアプローチを提案する。
5つの公開データセットの実験により、我々のアプローチはLLMの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-10-05T04:06:56Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。