論文の概要: RSpell: Retrieval-augmented Framework for Domain Adaptive Chinese
Spelling Check
- arxiv url: http://arxiv.org/abs/2308.08176v1
- Date: Wed, 16 Aug 2023 07:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 14:33:25.514387
- Title: RSpell: Retrieval-augmented Framework for Domain Adaptive Chinese
Spelling Check
- Title(参考訳): rspell: ドメイン適応中国語綴りチェックのための検索型フレームワーク
- Authors: Siqi Song, Qi Lv, Lei Geng, Ziqiang Cao, and Guohong Fu
- Abstract要約: 中国語のスペルチェック(英語: Chinese Spelling Check, CSC)は、中国語のテキストにおけるスペルエラーの検出と修正を指す。
本稿では,対応するドメイン語を検索し,それをCSCモデルに組み込むRSpellという検索拡張スペルチェックフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.639084426359569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese Spelling Check (CSC) refers to the detection and correction of
spelling errors in Chinese texts. In practical application scenarios, it is
important to make CSC models have the ability to correct errors across
different domains. In this paper, we propose a retrieval-augmented spelling
check framework called RSpell, which searches corresponding domain terms and
incorporates them into CSC models. Specifically, we employ pinyin fuzzy
matching to search for terms, which are combined with the input and fed into
the CSC model. Then, we introduce an adaptive process control mechanism to
dynamically adjust the impact of external knowledge on the model. Additionally,
we develop an iterative strategy for the RSpell framework to enhance reasoning
capabilities. We conducted experiments on CSC datasets in three domains: law,
medicine, and official document writing. The results demonstrate that RSpell
achieves state-of-the-art performance in both zero-shot and fine-tuning
scenarios, demonstrating the effectiveness of the retrieval-augmented CSC
framework. Our code is available at https://github.com/47777777/Rspell.
- Abstract(参考訳): 中国語のスペルチェック(英語: Chinese Spelling Check, CSC)は、中国語のテキストにおけるスペルエラーの検出と修正を指す。
現実的なアプリケーションシナリオでは、CSCモデルに異なるドメイン間でエラーを修正する能力を持たせることが重要である。
本稿では,対応するドメイン語を検索し,それをCSCモデルに組み込むRSpellという検索拡張スペルチェックフレームワークを提案する。
具体的には,入力と組み合わせてCSCモデルに入力される用語を検索するために,ピンファジィマッチングを用いる。
次に,外部知識がモデルに与える影響を動的に調整する適応的プロセス制御機構を提案する。
さらに,rspellフレームワークの推論能力を高めるための反復戦略を開発する。
CSCデータセットを3つの領域(法、医学、公式文書作成)で実験した。
その結果、RSpellはゼロショットと微調整の両方のシナリオで最先端の性能を実現し、検索強化CSCフレームワークの有効性を実証した。
私たちのコードはhttps://github.com/477777/rspellで利用可能です。
関連論文リスト
- EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - An Empirical Investigation of Domain Adaptation Ability for Chinese
Spelling Check Models [33.34502967864915]
中国語スペルチェック(CSC)は自然言語処理(NLP)分野において重要な課題である
CSCモデルは、訓練済みの言語モデルに基づいており、一般的なコーパスに基づいて訓練されている。
金融、医療、法的ドメインから豊富なドメイン固有の用語を含む3つの新しいデータセットを構築します。
論文 参考訳(メタデータ) (2024-01-26T03:49:55Z) - Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文 参考訳(メタデータ) (2023-11-14T14:56:33Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - Exploration and Exploitation: Two Ways to Improve Chinese Spelling
Correction Models [51.744357472072416]
本稿では,モデルの弱点を継続的に識別し,より価値の高いトレーニングインスタンスを生成する手法を提案する。
実験結果から, 事前学習戦略と組み合わさって, 複数のCSCモデルの一般化とロバスト性を改善することができることがわかった。
論文 参考訳(メタデータ) (2021-05-31T09:17:33Z) - Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss [5.707652271634435]
本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
論文 参考訳(メタデータ) (2020-05-16T09:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。