論文の概要: Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction
- arxiv url: http://arxiv.org/abs/2407.15498v1
- Date: Mon, 22 Jul 2024 09:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:31:05.253673
- Title: Refining Corpora from a Model Calibration Perspective for Chinese Spelling Correction
- Title(参考訳): 中国語スペル補正モデル校正の観点からのコーパスの精製
- Authors: Dingyao Yu, Yang An, Wei Ye, Xiongfeng Xiao, Shaoguang Mao, Tao Ge, Shikun Zhang,
- Abstract要約: チャイニーズ・スペルリング・コーパス(CSC)は通常、大規模な高品質コーパスを欠いている。
2つのデータ拡張手法が広く採用されている: (1) 混乱セットのガイダンス付きtextitRandom Replacement と (2) 文字誤用をシミュレートする textitOCR/ASR ベースジェネレーション。
- 参考スコア(独自算出の注目度): 40.11364098789309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Spelling Correction (CSC) commonly lacks large-scale high-quality corpora, due to the labor-intensive labeling of spelling errors in real-life human writing or typing scenarios. Two data augmentation methods are widely adopted: (1) \textit{Random Replacement} with the guidance of confusion sets and (2) \textit{OCR/ASR-based Generation} that simulates character misusing. However, both methods inevitably introduce noisy data (e.g., false spelling errors), potentially leading to over-correction. By carefully analyzing the two types of corpora, we find that though the latter achieves more robust generalization performance, the former yields better-calibrated CSC models. We then provide a theoretical analysis of this empirical observation, based on which a corpus refining strategy is proposed. Specifically, OCR/ASR-based data samples are fed into a well-calibrated CSC model trained on random replacement-based corpora and then filtered based on prediction confidence. By learning a simple BERT-based model on the refined OCR/ASR-based corpus, we set up impressive state-of-the-art performance on three widely-used benchmarks, while significantly alleviating over-correction (e.g., lowering false positive predictions).
- Abstract(参考訳): 中国語のspelling Correction(CSC)は、現実の人間の筆記やタイピングシナリオにおけるスペルエラーの労働集約的なラベル付けのため、大規模な高品質コーパスを欠いていることが多い。
1)混乱集合の誘導による \textit{Random Replacement} と,(2) 文字誤用をシミュレートする \textit{OCR/ASR-based Generation} の2つのデータ拡張手法が広く採用されている。
しかし、どちらの手法も必然的にノイズの多いデータ(例えば偽の綴り誤り)を導入し、過度な訂正につながる可能性がある。
2種類のコーパスを慎重に解析することにより、後者はより堅牢な一般化性能を得るが、前者はより良い校正CSCモデルを得る。
次に、この経験的観察に関する理論的分析を行い、コーパス精製戦略を提案する。
具体的には、OCR/ASRベースのデータサンプルを、ランダムな置換ベースのコーパスに基づいて訓練されたよく校正されたCSCモデルに入力し、予測信頼度に基づいてフィルタリングする。
改良されたOCR/ASRベースのコーパス上で単純なBERTベースのモデルを学ぶことによって、広く使用されている3つのベンチマークに対して、最先端のパフォーマンスを印象的に設定すると同時に、オーバーコレクション(例えば、偽陽性の予測を下げる)を大幅に緩和する。
関連論文リスト
- Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Improving Contextual Spelling Correction by External Acoustics Attention
and Semantic Aware Data Augmentation [31.408074817254732]
本稿では,E2Eニューラルトランスデューサを用いたASRシステムにおける文脈バイアスに対する非自己回帰スペル補正モデルを提案する。
音声情報に外部の注意を払い、テキスト仮説をCSCに組み込んで、目的語句と相違語句や無関係語句とをよりよく区別する。
実験により、改良された手法は、ベースラインのASR+Biasingシステムよりも20.3%の相対的な名前リコールゲインで優れていることが示された。
論文 参考訳(メタデータ) (2023-02-22T08:00:08Z) - RoCourseNet: Distributionally Robust Training of a Prediction Aware
Recourse Model [29.057300578765663]
RoCourseNetは、将来のデータシフトに対して堅牢な予測とリコースを共同で最適化するトレーニングフレームワークである。
RoCourseNetは、ロバストな妥当性を96%以上達成し、ロバストな説明を生成する上で、最先端のベースラインを少なくとも10%上回っていることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:18:18Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Using calibrator to improve robustness in Machine Reading Comprehension [18.844528744164876]
ポストホックリランカとしてキャリブレータを用いてロバスト性を向上させる手法を提案する。
敵対的データセットを用いた実験結果から,我々のモデルは10%以上の性能向上を達成できることがわかった。
論文 参考訳(メタデータ) (2022-02-24T02:16:42Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。