論文の概要: MTCSC: Retrieval-Augmented Iterative Refinement for Chinese Spelling Correction
- arxiv url: http://arxiv.org/abs/2504.18938v1
- Date: Sat, 26 Apr 2025 14:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.055493
- Title: MTCSC: Retrieval-Augmented Iterative Refinement for Chinese Spelling Correction
- Title(参考訳): MTCSC:中国鎮静法における検索強化反復留置法
- Authors: Junhong Liang, Yu Zhou,
- Abstract要約: 中国語のspelling Correctionは、文中の誤ったトークンを検出し、修正することを目的としている。
LLMは潜在的なエラーを特定し、修正することに成功した。
既存のCSCタスクは入力と出力の長さを同一にする必要がある厳格な制約を課している。
- 参考スコア(独自算出の注目度): 3.2706233566525613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese Spelling Correction (CSC) aims to detect and correct erroneous tokens in sentences. While Large Language Models (LLMs) have shown remarkable success in identifying and rectifying potential errors, they often struggle with maintaining consistent output lengths and adapting to domain-specific corrections. Furthermore, existing CSC task impose rigid constraints requiring input and output lengths to be identical, limiting their applicability. In this work, we extend traditional CSC to variable-length correction scenarios, including Chinese Splitting Error Correction (CSEC) and ASR N-best Error Correction. To address domain adaptation and length consistency, we propose MTCSC (Multi-Turn CSC) framework based on RAG enhanced with a length reflection mechanism. Our approach constructs a retrieval database from domain-specific training data and dictionaries, fine-tuning retrievers to optimize performance for error-containing inputs. Additionally, we introduce a multi-source combination strategy with iterative length reflection to ensure output length fidelity. Experiments across diverse domain datasets demonstrate that our method significantly outperforms current approaches in correction quality, particularly in handling domain-specific and variable-length error correction tasks.
- Abstract(参考訳): 中国語のspelling Correction(CSC)は、文中の誤ったトークンを検出し、修正することを目的としている。
LLM(Large Language Models)は潜在的なエラーの特定と修正に顕著な成功を収めているが、一貫性のある出力長の維持とドメイン固有の修正への適応に苦慮することが多い。
さらに、既存のCSCタスクは、入力と出力の長さを同一にする必要がある厳格な制約を課し、適用性を制限する。
本研究では,中国分割誤り訂正(CSEC)やASR N-best誤り訂正(ASR N-best誤り訂正)など,従来のCSCを可変長補正シナリオに拡張する。
ドメイン適応と長さの整合性に対処するため,長さ反射機構を付加したRAGに基づくMCCSC(Multi-Turn CSC)フレームワークを提案する。
提案手法は,ドメイン固有のトレーニングデータと辞書から検索データベースを構築することで,エラーを含む入力の性能を最適化する。
さらに、出力長の忠実度を確保するために、反復長反射を伴う複数ソースの組み合わせ戦略を導入する。
種々のドメインデータセットを対象とした実験により,本手法は,特にドメイン固有および可変長誤り訂正タスクの処理において,補正品質の現在の手法よりも著しく優れていることが示された。
関連論文リスト
- Chain of Correction for Full-text Speech Recognition with Large Language Models [21.37485126269991]
大規模言語モデル(LLM)を用いた全文誤り訂正のための訂正の連鎖(CoC)
CoCは、通常のマルチターンチャットフォーマット内のガイダンスとして、事前に認識されたテキストを使用して、エラーセグメントをセグメントごとに修正する。
我々は、修正しきい値を設定し、過度な補正と過剰な言い換えのバランスをとる方法について分析する。
論文 参考訳(メタデータ) (2025-04-02T09:06:23Z) - A Training-free LLM-based Approach to General Chinese Character Error Correction [31.511249971873962]
中国語のスペル訂正(CSC)は,漢字の文字誤りの訂正を目的とした重要な課題である。
本稿では,3種類の文字誤りに着目した汎用漢字誤り訂正(C2EC)の課題を紹介する。
トレーニング不要なプロンプトフリーCSC法をC2ECに拡張し,Levenshtein距離を用いて長さ変化を処理し,新たなプロンプトベース大規模言語モデル(LLM)を活用して性能を向上させる。
論文 参考訳(メタデータ) (2025-02-21T07:48:54Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。