論文の概要: Context-aware Stand-alone Neural Spelling Correction
- arxiv url: http://arxiv.org/abs/2011.06642v1
- Date: Thu, 12 Nov 2020 20:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:07:40.515253
- Title: Context-aware Stand-alone Neural Spelling Correction
- Title(参考訳): 文脈認識型スタンドアロンニューラルスペル補正
- Authors: Xiangci Li, Hairong Liu, Liang Huang
- Abstract要約: 本稿では,事前学習した言語モデルを微調整することにより,ミススペルをシーケンスラベリングタスクとして共同で検出し,修正する,シンプルで強力なソリューションを提案する。
我々の解は、これまでの最先端の結果を12.8%の絶対F0.5スコアで上回っている。
- 参考スコア(独自算出の注目度): 11.643354740136953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing natural language processing systems are vulnerable to noisy inputs
resulting from misspellings. On the contrary, humans can easily infer the
corresponding correct words from their misspellings and surrounding context.
Inspired by this, we address the stand-alone spelling correction problem, which
only corrects the spelling of each token without additional token insertion or
deletion, by utilizing both spelling information and global context
representations. We present a simple yet powerful solution that jointly detects
and corrects misspellings as a sequence labeling task by fine-turning a
pre-trained language model. Our solution outperforms the previous
state-of-the-art result by 12.8% absolute F0.5 score.
- Abstract(参考訳): 既存の自然言語処理システムは、ミススペルによるノイズの多い入力に対して脆弱である。
反対に、人間はミススペルや周囲の文脈から、対応する正しい単語を容易に推測することができる。
そこで本稿では,トークンの挿入や削除を必要とせず,各トークンの綴りを訂正し,綴り情報と大域的文脈表現を併用する,単独の綴り補正問題に着想を得た。
本稿では,事前学習した言語モデルを微調整することにより,ミススペルをシーケンスラベリングタスクとして検出・修正する,単純かつ強力な解を提案する。
我々の解は、これまでの最先端の結果を12.8%の絶対F0.5スコアで上回る。
関連論文リスト
- Automatic Real-word Error Correction in Persian Text [0.0]
本稿では,ペルシャ語テキストにおける高精度かつ効率的な実単語誤り訂正のための最先端手法を提案する。
我々は,誤り検出と訂正の有効性を高めるために,意味解析,特徴選択,高度な分類器を用いる。
本手法は,検出段階で96.6%,補正時に99.1%の精度でF測定を行う。
論文 参考訳(メタデータ) (2024-07-20T07:50:52Z) - PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis [0.0]
本研究では,ディープラーニング技術と音声解析をシームレスに統合したペルシャ語スペル訂正システムを提案する。
提案手法は,文脈分析と音韻的洞察を効果的に組み合わせ,非単語と実単語の綴り誤りを正確に補正する。
広帯域データセットの徹底的な評価により,既存手法と比較してシステムの性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-07-20T07:41:04Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech
Recognition [49.42732949233184]
ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。
損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。
そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:13:52Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - Misspelling Correction with Pre-trained Contextual Language Model [0.0]
BERTと編集距離アルゴリズムに基づく2つの実験を行い、候補補正のランキングと選択を行います。
実験の結果,BERTの文脈単語埋め込みと編集距離を適切に組み合わせることで,スペルエラーを効果的に修正できることが判明した。
論文 参考訳(メタデータ) (2021-01-08T20:11:01Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。