論文の概要: Chinese Spelling Check with Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2211.07843v1
- Date: Tue, 15 Nov 2022 01:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:27:10.977695
- Title: Chinese Spelling Check with Nearest Neighbors
- Title(参考訳): 近い隣人と中国語の綴りチェック
- Authors: Xunjian Yin and Xinyu Hu and Xiaojun Wan
- Abstract要約: 我々はInfoKNN-CSCを導入し、k-nearest neighbors (kNN)モデルで線形補間することで標準CSCモデルを拡張した。
提案したモデルでは,既存の作業よりも大幅に改善され,最先端の性能を実現している。
- 参考スコア(独自算出の注目度): 48.63907341053877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Spelling Check (CSC) aims to detect and correct error tokens in
Chinese contexts, which has a wide range of applications. In this paper, we
introduce InfoKNN-CSC, extending the standard CSC model by linearly
interpolating it with a k-nearest neighbors (kNN) model. Moreover, the
phonetic, graphic, and contextual information (info) of tokens and contexts are
elaborately incorporated into the design of the query and key of kNN, according
to the characteristics of the task. After retrieval, in order to match the
candidates more accurately, we also perform reranking methods based on the
overlap of the n-gram values and inputs. Experiments on the SIGHAN benchmarks
demonstrate that the proposed model achieves state-of-the-art performance with
substantial improvements over existing work.
- Abstract(参考訳): Chinese Spelling Check (CSC)は、幅広い用途を持つ中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
本稿では,k-nearest neighbors (kNN)モデルで線形補間することで標準CSCモデルを拡張したInfoKNN-CSCを紹介する。
さらに,kNNの特徴に応じて,トークンとコンテキストの音声情報,グラフィック情報,文脈情報(info)をクエリとキーの設計に精巧に組み込む。
検索後,n-gram値と入力の重なり合いに基づいて,候補をより正確にマッチングする手法の再評価を行う。
SIGHANベンチマークの実験では、提案モデルが既存の作業よりも大幅に改善され、最先端の性能を達成することを示した。
関連論文リスト
- EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell
Checking [0.0]
本稿では, ラベルの漏洩や誤検出を回避するため, 電流や周辺トークンをマスキングするn-gramマスキング層を提案する。
SIGHANデータセットの実験では、プラグ可能なn-gramマスキング機構により、一般的なCSCモデルの性能が向上することを示した。
論文 参考訳(メタデータ) (2023-05-05T06:43:56Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。