論文の概要: A Training-free LLM-based Approach to General Chinese Character Error Correction
- arxiv url: http://arxiv.org/abs/2502.15266v1
- Date: Fri, 21 Feb 2025 07:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:53.473451
- Title: A Training-free LLM-based Approach to General Chinese Character Error Correction
- Title(参考訳): 訓練不要 LLM による漢字誤り訂正
- Authors: Houquan Zhou, Bo Zhang, Zhenghua Li, Ming Yan, Min Zhang,
- Abstract要約: 中国語のスペル訂正(CSC)は,漢字の文字誤りの訂正を目的とした重要な課題である。
本稿では,3種類の文字誤りに着目した汎用漢字誤り訂正(C2EC)の課題を紹介する。
トレーニング不要なプロンプトフリーCSC法をC2ECに拡張し,Levenshtein距離を用いて長さ変化を処理し,新たなプロンプトベース大規模言語モデル(LLM)を活用して性能を向上させる。
- 参考スコア(独自算出の注目度): 31.511249971873962
- License:
- Abstract: Chinese spelling correction (CSC) is a crucial task that aims to correct character errors in Chinese text. While conventional CSC focuses on character substitution errors caused by mistyping, two other common types of character errors, missing and redundant characters, have received less attention. These errors are often excluded from CSC datasets during the annotation process or ignored during evaluation, even when they have been annotated. This issue limits the practicality of the CSC task. To address this issue, we introduce the task of General Chinese Character Error Correction (C2EC), which focuses on all three types of character errors. We construct a high-quality C2EC benchmark by combining and manually verifying data from CCTC and Lemon datasets. We extend the training-free prompt-free CSC method to C2EC by using Levenshtein distance for handling length changes and leveraging an additional prompt-based large language model (LLM) to improve performance. Experiments show that our method enables a 14B-parameter LLM to be on par with models nearly 50 times larger on both conventional CSC and C2EC tasks, without any fine-tuning.
- Abstract(参考訳): 中国語のスペル訂正(CSC)は,漢字の文字誤りの訂正を目的とした重要な課題である。
従来のCSCはミスタイピングによる文字置換エラーに重点を置いているが、他の2種類の文字誤り(欠落と冗長な文字)はあまり注目されていない。
これらのエラーは、アノテーションプロセス中にCSCデータセットから除外されるか、アノテートされた場合でも評価中に無視されることが多い。
この問題はCSCタスクの実用性を制限する。
この問題に対処するために,3種類の文字誤りに焦点をあてた一般漢字誤り訂正(C2EC)の課題を紹介する。
CCTCデータセットとLemonデータセットのデータを手動で検証することで,高品質なC2ECベンチマークを構築した。
トレーニング不要なプロンプトフリーCSC法をC2ECに拡張し,Levenshtein距離を用いて長さ変化を処理し,新たなプロンプトベース大規模言語モデル(LLM)を活用して性能を向上させる。
実験の結果,従来のCSCタスクとC2ECタスクのほぼ50倍のモデルに14BパラメータのLLMを適用でき,微調整は行わないことがわかった。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - The Past Mistake is the Future Wisdom: Error-driven Contrastive
Probability Optimization for Chinese Spell Checking [32.8563506271794]
中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。
プレトレーニング言語モデル(PLM)は、CSCタスクの進行を促進する。
本稿では,CSCタスクに対する誤り駆動型Contrastive Probability Optimizationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-02T09:58:56Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。