論文の概要: RAIR: Retrieval-Augmented Iterative Refinement for Chinese Spelling Correction
- arxiv url: http://arxiv.org/abs/2504.18938v2
- Date: Mon, 11 Aug 2025 14:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:52.655784
- Title: RAIR: Retrieval-Augmented Iterative Refinement for Chinese Spelling Correction
- Title(参考訳): RAIR:中国語の発音訂正のための検索強化反復リファインメント
- Authors: Junhong Liang, Yu Zhou,
- Abstract要約: 中国語のspelling Correction(CSC)は、文中の誤ったトークンを検出し、修正することを目的としている。
従来のCSCは等長補正に重点を置いており、事前訓練言語モデル(PLM)を使用している。
textbfRetrieval-textbfAugmented textbfIterative textbfRefinement frameworkを提案する。
- 参考スコア(独自算出の注目度): 3.2706233566525613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese Spelling Correction (CSC) aims to detect and correct erroneous tokens in sentences. Traditional CSC focuses on equal length correction and uses pretrained language models (PLMs). While Large Language Models (LLMs) have shown remarkable success in identifying and rectifying potential errors, they often struggle with adapting to domain-specific corrections, especially when encountering terminologies in specialized domains. To address domain adaptation, we propose a \textbf{R}etrieval-\textbf{A}ugmented \textbf{I}terative \textbf{R}efinement (RAIR) framework. Our approach constructs a retrieval corpus adaptively from domain-specific training data and dictionaries, employing a fine-tuned retriever to ensure that the retriever catches the error correction pattern. We also extend equal-length into variable-length correction scenarios. Extensive experiments demonstrate that our framework outperforms current approaches in domain spelling correction and significantly improves the performance of LLMs in variable-length scenarios.
- Abstract(参考訳): 中国語のspelling Correction(CSC)は、文中の誤ったトークンを検出し、修正することを目的としている。
従来のCSCは等長補正に重点を置いており、事前訓練言語モデル(PLM)を使用している。
LLM(Large Language Models)は潜在的なエラーの特定と修正に顕著な成功を収めているが、特に専門分野の用語に遭遇する場合は、ドメイン固有の修正に適応することに苦慮することが多い。
ドメイン適応に対処するため、我々は、textbf{R}etrieval-\textbf{A}ugmented \textbf{I}terative \textbf{R}efinement (RAIR) フレームワークを提案する。
提案手法は,ドメイン固有のトレーニングデータと辞書から適応的に検索コーパスを構築し,微調整された検索器を用いて,検索者が誤り訂正パターンを捕捉することを保証する。
また、等長を可変長補正シナリオに拡張する。
拡張実験により,本フレームワークはドメインスペル補正における現在の手法よりも優れており,可変長シナリオにおけるLLMの性能が著しく向上していることが示された。
関連論文リスト
- FactCorrector: A Graph-Inspired Approach to Long-Form Factuality Correction of Large Language Models [47.782867391739195]
大規模言語モデル(LLM)は知識集約型アプリケーションで広く使われているが、しばしば事実的に誤った応答を生成する。
FactCorrectorは、再トレーニングなしにドメイン間で適応する新しいポストホック補正手法である。
VELI5といくつかの人気のある長文の事実性データセットの実験は、FactCorrectorアプローチが関連性を維持しながら事実の精度を大幅に向上させることを示している。
論文 参考訳(メタデータ) (2026-01-16T12:23:58Z) - Adapting LLMs for Minimal-edit Grammatical Error Correction [0.0]
本稿では,誤り率適応のトピックについて検討し,新しいトレーニングスケジュール法を提案する。
我々の実験は、BEA-testセット上の単一モデルシステムに対して、新しい最先端の結果を設定しました。
我々は、デトークン化されたデータセットのトレーニングが結果に影響を与えるかどうかを分析し、修正された誤例を用いてデータセットの使用の影響を計測する。
論文 参考訳(メタデータ) (2025-06-16T07:00:48Z) - Chain of Correction for Full-text Speech Recognition with Large Language Models [21.37485126269991]
大規模言語モデル(LLM)を用いた全文誤り訂正のための訂正の連鎖(CoC)
CoCは、通常のマルチターンチャットフォーマット内のガイダンスとして、事前に認識されたテキストを使用して、エラーセグメントをセグメントごとに修正する。
我々は、修正しきい値を設定し、過度な補正と過剰な言い換えのバランスをとる方法について分析する。
論文 参考訳(メタデータ) (2025-04-02T09:06:23Z) - A Training-free LLM-based Approach to General Chinese Character Error Correction [31.511249971873962]
中国語のスペル訂正(CSC)は,漢字の文字誤りの訂正を目的とした重要な課題である。
本稿では,3種類の文字誤りに着目した汎用漢字誤り訂正(C2EC)の課題を紹介する。
トレーニング不要なプロンプトフリーCSC法をC2ECに拡張し,Levenshtein距離を用いて長さ変化を処理し,新たなプロンプトベース大規模言語モデル(LLM)を活用して性能を向上させる。
論文 参考訳(メタデータ) (2025-02-21T07:48:54Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。