論文の概要: Contextual Similarity is More Valuable than Character Similarity:
Curriculum Learning for Chinese Spell Checking
- arxiv url: http://arxiv.org/abs/2207.09217v1
- Date: Sun, 17 Jul 2022 03:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:46:23.833718
- Title: Contextual Similarity is More Valuable than Character Similarity:
Curriculum Learning for Chinese Spell Checking
- Title(参考訳): 文脈類似性は文字類似性よりも有益である:中国語スペルチェックのためのカリキュラム学習
- Authors: Ding Zhang, Yinghui Li, Qingyu Zhou, Shirong Ma, Yangning Li, Yunbo
Cao, Hai-Tao Zheng
- Abstract要約: 中国語のスペルチェック(CSC)タスクは、中国語のスペルエラーを検出し、修正することを目的としている。
文脈的類似性をよりよく活用するために,CSCタスクのためのシンプルで効果的なカリキュラム学習フレームワークを提案する。
設計したモデルに依存しないフレームワークの助けを借りて、既存のCSCモデルは、人間が漢字を学習するときに、容易から困難に訓練される。
- 参考スコア(独自算出の注目度): 26.93594761258908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Spell Checking (CSC) task aims to detect and correct Chinese spelling
errors. In recent years, related researches focus on introducing the character
similarity from confusion set to enhance the CSC models, ignoring the context
of characters that contain richer information. To make better use of contextual
similarity, we propose a simple yet effective curriculum learning framework for
the CSC task. With the help of our designed model-agnostic framework, existing
CSC models will be trained from easy to difficult as humans learn Chinese
characters and achieve further performance improvements. Extensive experiments
and detailed analyses on widely used SIGHAN datasets show that our method
outperforms previous state-of-the-art methods.
- Abstract(参考訳): 中国語のスペルチェック(csc)タスクは、中国語のスペルエラーの検出と修正を目的としている。
近年、関連する研究は、よりリッチな情報を含む文字の文脈を無視して、CSCモデルを強化する混乱セットから文字類似性を導入することに焦点を当てている。
文脈的類似性をよりよく活用するために,CSCタスクのためのシンプルで効果的なカリキュラム学習フレームワークを提案する。
設計したモデルに依存しないフレームワークにより、人間が漢字を学習し、さらなる性能向上を達成するため、既存のCSCモデルは容易に訓練できる。
広く使われているSIGHANデータセットの大規模な実験と詳細な分析により,本手法が従来の最先端手法よりも優れていることが示された。
関連論文リスト
- EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - Learning from the Dictionary: Heterogeneous Knowledge Guided Fine-tuning
for Chinese Spell Checking [32.16787396943434]
中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。
最近の研究は、言語モデルの事前訓練された知識から始まり、CSCモデルにマルチモーダル情報を取り入れて性能を向上させる。
本稿では,音声学・視覚学・意味学の観点から,CSCモデルを用いて辞書から異種知識を学習するLEADフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-19T06:31:34Z) - The Past Mistake is the Future Wisdom: Error-driven Contrastive
Probability Optimization for Chinese Spell Checking [32.8563506271794]
中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。
プレトレーニング言語モデル(PLM)は、CSCタスクの進行を促進する。
本稿では,CSCタスクに対する誤り駆動型Contrastive Probability Optimizationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-02T09:58:56Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。