論文の概要: Domain-shift Conditioning using Adaptable Filtering via Hierarchical
Embeddings for Robust Chinese Spell Check
- arxiv url: http://arxiv.org/abs/2008.12281v3
- Date: Sat, 22 May 2021 04:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:55:32.714084
- Title: Domain-shift Conditioning using Adaptable Filtering via Hierarchical
Embeddings for Robust Chinese Spell Check
- Title(参考訳): 階層埋め込みによる適応フィルタを用いた中国語スペルチェックのドメインシフト条件付け
- Authors: Minh Nguyen, Gia H. Ngo, Nancy F. Chen
- Abstract要約: スペルチェックは、ノイズの多い人為的なテキストを処理する有用なアプリケーションである。
中国語のスペルチェックでは、混乱セットを用いたフィルタリングは検索スペースを狭め、修正の発見を容易にする。
本稿では,階層的な文字埋め込みを利用した拡張性のある適応可能なフィルタを提案する。
- 参考スコア(独自算出の注目度): 29.041134293160255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spell check is a useful application which processes noisy human-generated
text. Spell check for Chinese poses unresolved problems due to the large number
of characters, the sparse distribution of errors, and the dearth of resources
with sufficient coverage of heterogeneous and shifting error domains. For
Chinese spell check, filtering using confusion sets narrows the search space
and makes finding corrections easier. However, most, if not all, confusion sets
used to date are fixed and thus do not include new, shifting error domains. We
propose a scalable adaptable filter that exploits hierarchical character
embeddings to (1) obviate the need to handcraft confusion sets, and (2) resolve
sparsity problems related to infrequent errors. Our approach compares favorably
with competitive baselines and obtains SOTA results on the 2014 and 2015
Chinese Spelling Check Bake-off datasets.
- Abstract(参考訳): スペルチェックは、ノイズの多い人為的なテキストを処理する有用なアプリケーションである。
中国語のスペルチェックは、文字数の多さ、エラーのばらばらな分布、ヘテロジニアスドメインやシフトエラードメインを十分にカバーするリソースの不足など、解決されていない問題を引き起こす。
中国語のスペルチェックでは、混乱セットを用いたフィルタリングは検索スペースを狭め、修正の発見を容易にする。
しかし、すべてではないにしても、それまでの混乱セットは固定されており、新しいシフトエラードメインは含まない。
階層的文字埋め込みを利用したスケーラブルな適応型フィルタを提案し,(1)手作業による混乱を解消し,(2)不適切なエラーに関連するスパーシティ問題を解消する。
本手法は,2014年および2015年の中国語綴りチェックベイクオフデータセットにおいて,競合ベースラインと比較し,sota結果を得る。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - An Alignment-Agnostic Model for Chinese Text Error Correction [17.429266115653007]
本稿では,誤字・欠字・冗長字の種類で中国語の誤りを訂正する方法を検討する。
ほとんどの既存モデルは誤り文字の誤りを訂正できるが、欠落文字や冗長文字を扱うことはできない。
本稿では,テキストアライメントと非アライメントの両方を処理可能な,アライメント非依存な新たな検出訂正フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T01:17:34Z) - Decoding Time Lexical Domain Adaptationfor Neural Machine Translation [7.628949147902029]
特にタスクがリソースが少ない場合、機械翻訳システムはドメインミスマッチに対して脆弱です。
この設定では、翻訳品質を改善するための2つの簡単な方法を紹介します。
論文 参考訳(メタデータ) (2021-01-02T11:06:15Z) - Tokenization Repair in the Presence of Spelling Errors [0.2964978357715083]
エラーのスペルは存在するが、修正する問題の一部ではない。
高品質なトークン化修復の鍵となる3つの要素を同定する。
論文 参考訳(メタデータ) (2020-10-15T16:55:45Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z) - Spelling Error Correction with Soft-Masked BERT [11.122964733563117]
タスクの最先端方法は、BERTに基づいて、文の各位置で修正する候補のリストから文字を選択する。
BERTは各位置にエラーがあるかどうかを検出するのに十分な能力を持っていないため、この手法の精度は準最適である。
本稿では,エラー検出のためのネットワークと,BERTに基づく誤り訂正のためのネットワークからなる,上記の問題に対処する新しいニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-15T09:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。