論文の概要: Error-Robust Retrieval for Chinese Spelling Check
- arxiv url: http://arxiv.org/abs/2211.07843v2
- Date: Sun, 25 Feb 2024 22:17:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:59:20.693673
- Title: Error-Robust Retrieval for Chinese Spelling Check
- Title(参考訳): 中国語綴りチェックにおけるエラーロバスト検索
- Authors: Xunjian Yin and Xinyu Hu and Jin Jiang and Xiaojun Wan
- Abstract要約: Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
- 参考スコア(独自算出の注目度): 43.56073620728942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese Spelling Check (CSC) aims to detect and correct error tokens in
Chinese contexts, which has a wide range of applications. However, it is
confronted with the challenges of insufficient annotated data and the issue
that previous methods may actually not fully leverage the existing datasets. In
this paper, we introduce our plug-and-play retrieval method with error-robust
information for Chinese Spelling Check (RERIC), which can be directly applied
to existing CSC models. The datastore for retrieval is built completely based
on the training data, with elaborate designs according to the characteristics
of CSC. Specifically, we employ multimodal representations that fuse phonetic,
morphologic, and contextual information in the calculation of query and key
during retrieval to enhance robustness against potential errors. Furthermore,
in order to better judge the retrieved candidates, the n-gram surrounding the
token to be checked is regarded as the value and utilized for specific
reranking. The experiment results on the SIGHAN benchmarks demonstrate that our
proposed method achieves substantial improvements over existing work.
- Abstract(参考訳): Chinese Spelling Check (CSC)は、幅広い用途を持つ中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
しかし、注釈付きデータの不足や、以前の方法が既存のデータセットを完全に活用できないという問題に直面している。
本稿では,既存のCSCモデルに直接適用可能な中国語スペルチェック(RERIC)の誤検出情報を用いたプラグアンドプレイ検索手法を提案する。
検索用データストアは完全にトレーニングデータに基づいて構築されており、CSCの特性に応じて精巧な設計がされている。
具体的には,検索中のクエリとキーの計算において,音声的,形態的,文脈的情報を融合するマルチモーダル表現を用いて,潜在的なエラーに対する頑健性を高める。
さらに、検索された候補をよりよく判断するために、チェック対象のトークンを囲むn-gramが値と見なされ、特定の再ランク付けに利用される。
SIGHANベンチマーク実験の結果,提案手法は既存の作業よりも大幅に改善されていることが示された。
関連論文リスト
- Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [17.55466402274949]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。
まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。
文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文 参考訳(メタデータ) (2024-01-27T20:26:03Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell
Checking [0.0]
本稿では, ラベルの漏洩や誤検出を回避するため, 電流や周辺トークンをマスキングするn-gramマスキング層を提案する。
SIGHANデータセットの実験では、プラグ可能なn-gramマスキング機構により、一般的なCSCモデルの性能が向上することを示した。
論文 参考訳(メタデータ) (2023-05-05T06:43:56Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。