Fugu-MT 論文翻訳(概要): C-LLM: Learn to Check Chinese Spelling Errors Character by Character

論文の概要: C-LLM: Learn to Check Chinese Spelling Errors Character by Character

arxiv url: http://arxiv.org/abs/2406.16536v2
Date: Sat, 26 Oct 2024 16:27:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.061125
Title: C-LLM: Learn to Check Chinese Spelling Errors Character by Character
Title（参考訳）: C-LLM:中国語のスペル文字を文字でチェックする方法
Authors: Kunting Li, Yong Hu, Liang He, Fandong Meng, Jie Zhou,
Abstract要約: 本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。 C-LLMは既存の方法よりも平均10%改善する。
参考スコア（独自算出の注目度）: 61.53865964535705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chinese Spell Checking (CSC) aims to detect and correct spelling errors in sentences. Despite Large Language Models (LLMs) exhibit robust capabilities and are widely applied in various tasks, their performance on CSC is often unsatisfactory. We find that LLMs fail to meet the Chinese character-level constraints of the CSC task, namely equal length and phonetic similarity, leading to a performance bottleneck. Further analysis reveal that this issue stems from the granularity of tokenization, as current mixed character-word tokenization struggles to satisfy these character-level constraints. To address this issue, we propose C-LLM, a Large Language Model-based Chinese Spell Checking method that learns to check errors Character by Character. Character-level tokenization enables the model to learn character-level alignment, effectively mitigating issues related to character-level constraints. Furthermore, CSC is simplified to replication-dominated and substitution-supplemented tasks. Experiments on two CSC benchmarks demonstrate that C-LLM achieves an average improvement of 10% over existing methods. Specifically, it shows a 2.1% improvement in general scenarios and a significant 12% improvement in vertical domain scenarios, establishing state-of-the-art performance. The source code can be accessed at https://github.com/ktlKTL/C-LLM.
Abstract（参考訳）: Chinese Spell Checking (CSC) は、文中のスペルエラーを検出し、修正することを目的としている。大きな言語モデル(LLM)は堅牢な機能を示し、様々なタスクに広く適用されているが、CSCのパフォーマンスは不満足であることが多い。 LLMはCSCタスクの漢字レベルの制約、すなわち等長と音韻的類似性を満たすことができず、性能のボトルネックとなる。さらに分析したところ、この問題は、現在の混合文字語トークン化がこれらの文字レベルの制約を満たすのに苦労しているため、トークン化の粒度に起因することが判明した。そこで我々は,C-LLMを提案する。C-LLMは,文字による誤りのチェックを学習する中国語のスペルチェック手法である。文字レベルのトークン化により、モデルは文字レベルのアライメントを学習し、文字レベルの制約に関連する問題を効果的に緩和することができる。さらに、CSCは複製管理および置換補充タスクに単純化されている。 CSCベンチマークの2つの実験は、C-LLMが既存の手法よりも平均10%改善したことを示している。具体的には、一般的なシナリオが2.1%改善され、垂直領域のシナリオが12%改善され、最先端のパフォーマンスが確立された。ソースコードはhttps://github.com/ktlKTL/C-LLMでアクセスできる。

関連論文リスト

Unveiling the Impact of Multimodal Features on Chinese Spelling Correction: From Analysis to Design [6.592255876792784]
中国語のspelling Correction(CSC)タスクは、文中のスペルエラーを検出し、修正することに焦点を当てている。 LLMはCSC(特に過補正)の制限に直面しており、このタスクには最適ではない。中国語スペル訂正のための新しいマルチモーダルモデルである textbfNamBert を導入する。
論文参考訳（メタデータ） (2025-04-10T11:19:09Z)
A Training-free LLM-based Approach to General Chinese Character Error Correction [31.511249971873962]
中国語のスペル訂正(CSC)は,漢字の文字誤りの訂正を目的とした重要な課題である。本稿では,3種類の文字誤りに着目した汎用漢字誤り訂正(C2EC)の課題を紹介する。トレーニング不要なプロンプトフリーCSC法をC2ECに拡張し,Levenshtein距離を用いて長さ変化を処理し,新たなプロンプトベース大規模言語モデル(LLM)を活用して性能を向上させる。
論文参考訳（メタデータ） (2025-02-21T07:48:54Z)
Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文参考訳（メタデータ） (2025-02-12T07:37:39Z)
EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。これらの制約に対処する2つのデータ拡張手法を提案する。まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文参考訳（メタデータ） (2024-09-08T14:29:10Z)
Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文参考訳（メタデータ） (2023-08-17T06:04:28Z)
TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。 CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文参考訳（メタデータ） (2023-04-15T12:52:23Z)
CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。 CSCD-NSはスケールが10倍大きく、誤差分布が異なる。本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文参考訳（メタデータ） (2022-11-16T09:25:42Z)
Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。これまでの方法では、既存のデータセットを完全に活用できない場合がある。そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文参考訳（メタデータ） (2022-11-15T01:55:34Z)
Improving Chinese Spelling Check by Character Pronunciation Prediction: The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文参考訳（メタデータ） (2022-10-20T03:42:35Z)
Contextual Similarity is More Valuable than Character Similarity: Curriculum Learning for Chinese Spell Checking [26.93594761258908]
中国語のスペルチェック(CSC)タスクは、中国語のスペルエラーを検出し、修正することを目的としている。文脈的類似性をよりよく活用するために,CSCタスクのためのシンプルで効果的なカリキュラム学習フレームワークを提案する。設計したモデルに依存しないフレームワークの助けを借りて、既存のCSCモデルは、人間が漢字を学習するときに、容易から困難に訓練される。
論文参考訳（メタデータ） (2022-07-17T03:12:27Z)
Improving Pre-trained Language Models with Syntactic Dependency Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文参考訳（メタデータ） (2022-04-15T13:55:32Z)
The Past Mistake is the Future Wisdom: Error-driven Contrastive Probability Optimization for Chinese Spell Checking [32.8563506271794]
中国語のスペルチェック(CSC)は、中国語のスペルエラーを検出し修正することを目的としている。プレトレーニング言語モデル(PLM)は、CSCタスクの進行を促進する。本稿では,CSCタスクに対する誤り駆動型Contrastive Probability Optimizationフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-02T09:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。