論文の概要: Chinese Spelling Correction as Rephrasing Language Model
- arxiv url: http://arxiv.org/abs/2308.08796v1
- Date: Thu, 17 Aug 2023 06:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:44:49.629542
- Title: Chinese Spelling Correction as Rephrasing Language Model
- Title(参考訳): 言語モデルとしての中国語スペル訂正
- Authors: Linfeng Liu, Hongqiu Wu, Hai Zhao
- Abstract要約: Chinese Spelling Correctionは、ある文中の潜在的なスペルエラーを検出し、修正することを目的としている。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
ReLM(Rephrasing Language Modeling$)を提案する。このモデルでは,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換えるように訓練されている。
- 参考スコア(独自算出の注目度): 63.65217759957206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies Chinese Spelling Correction (CSC), which aims to detect
and correct potential spelling errors in a given sentence. Current
state-of-the-art methods regard CSC as a sequence tagging task and fine-tune
BERT-based models on sentence pairs. However, we note a critical flaw in the
process of tagging one character to another, that the correction is excessively
conditioned on the error. This is opposite from human mindset, where
individuals rephrase the complete sentence based on its semantics, rather than
solely on the error patterns memorized before. Such a counter-intuitive
learning process results in the bottleneck of generalizability and
transferability of machine spelling correction. To address this, we propose
$Rephrasing Language Modeling$ (ReLM), where the model is trained to rephrase
the entire sentence by infilling additional slots, instead of
character-to-character tagging. This novel training paradigm achieves the new
state-of-the-art results across fine-tuned and zero-shot CSC benchmarks,
outperforming previous counterparts by a large margin. Our method also learns
transferable language representation when CSC is jointly trained with other
tasks.
- Abstract(参考訳): 本稿では,中国語の綴り誤りの検出と訂正を目的とした中国語綴り訂正(csc)について述べる。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
しかし、ある文字を別の文字にタグ付けする過程において、訂正が過度に条件付けされているという重大な欠陥に注意する。
これは人間の考え方とは逆で、個人は前に記憶されたエラーパターンにのみ依存するのではなく、その意味論に基づいて完全な文を言い換える。
このような直感的学習プロセスは、機械スペル訂正の一般化可能性と伝達可能性のボトルネックをもたらす。
これに対処するために、我々は$rephrasing language modeling$ (relm)を提案する。このモデルは、文字から文字へのタグ付けではなく、追加のスロットを埋め込むことで文全体を再現するように訓練される。
この新たなトレーニングパラダイムは、微調整およびゼロショットのCSCベンチマークにまたがる、最先端の新たな結果を達成する。
また,CSCが他のタスクと共同で訓練された場合,変換可能な言語表現も学習する。
関連論文リスト
- EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction [40.11364098789309]
チャイニーズ・スペルリング・コーパス(CSC)は通常、大規模な高品質コーパスを欠いている。
2つのデータ拡張手法が広く採用されている: (1) 混乱セットのガイダンス付きtextitRandom Replacement と (2) 文字誤用をシミュレートする textitOCR/ASR ベースジェネレーション。
論文 参考訳(メタデータ) (2024-07-22T09:26:35Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - An Error-Guided Correction Model for Chinese Spelling Error Correction [13.56600372085612]
中国語の綴り訂正を改善するための誤り誘導補正モデル(EGCM)を提案する。
我々のモデルは、最先端のアプローチに対する優れた性能を顕著なマージンで達成する。
論文 参考訳(メタデータ) (2023-01-16T09:27:45Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - The Past Mistake is the Future Wisdom: Error-driven Contrastive
Probability Optimization for Chinese Spell Checking [32.8563506271794]
中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。
プレトレーニング言語モデル(PLM)は、CSCタスクの進行を促進する。
本稿では,CSCタスクに対する誤り駆動型Contrastive Probability Optimizationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-02T09:58:56Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。