論文の概要: Tokenization Repair in the Presence of Spelling Errors
- arxiv url: http://arxiv.org/abs/2010.07878v2
- Date: Wed, 23 Mar 2022 14:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:50:42.117471
- Title: Tokenization Repair in the Presence of Spelling Errors
- Title(参考訳): Spelling Errors の存在下でのトークン化修復
- Authors: Hannah Bast, Matthias Hertel, Mostafa M. Mohamed
- Abstract要約: エラーのスペルは存在するが、修正する問題の一部ではない。
高品質なトークン化修復の鍵となる3つの要素を同定する。
- 参考スコア(独自算出の注目度): 0.2964978357715083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the following tokenization repair problem: Given a natural
language text with any combination of missing or spurious spaces, correct
these. Spelling errors can be present, but it's not part of the problem to
correct them. For example, given: "Tispa per isabout token izaionrep air",
compute "Tis paper is about tokenizaion repair". We identify three key
ingredients of high-quality tokenization repair, all missing from previous
work: deep language models with a bidirectional component, training the models
on text with spelling errors, and making use of the space information already
present. Our methods also improve existing spell checkers by fixing not only
more tokenization errors but also more spelling errors: once it is clear which
characters form a word, it is much easier for them to figure out the correct
word. We provide six benchmarks that cover three use cases (OCR errors, text
extraction from PDF, human errors) and the cases of partially correct space
information and all spaces missing. We evaluate our methods against the best
existing methods and a non-trivial baseline. We provide full reproducibility
under https://ad.cs.uni-freiburg.de/publications .
- Abstract(参考訳): 欠落または散逸した空間の任意の組み合わせを持つ自然言語テキストが与えられた場合、これを修正します。
エラーの回避は可能だが、修正する問題の一部ではない。
例えば "tispa per isabout token izaionrep air" と計算すると "tis paper is about tokenizaion repair" となる。
両方向コンポーネントを持つ深層言語モデル,スペルエラーによるテキスト上でのモデルのトレーニング,空間情報の利用という,従来の作業から欠落した,高品質なトークン化修復の3つの重要な要素を識別する。
また,既存のスペルチェッカーを改良するためには,トークン化エラーだけでなく,スペル化エラーの修正も行う。
我々は,3つのユースケース(OCRエラー,PDFからのテキスト抽出,ヒューマンエラー)と,空間情報の一部正しさと空間の欠如について,6つのベンチマークを行った。
提案手法を,既存手法と非自明なベースラインに対して評価する。
我々は https://ad.cs.uni-freiburg.de/publications で完全な再現性を提供します。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文 参考訳(メタデータ) (2023-05-29T06:35:40Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Mask the Correct Tokens: An Embarrassingly Simple Approach for Error
Correction [38.463639262607174]
以前の誤り訂正法は、典型的にはソース(誤り)文をエンコーダ入力とし、デコーダを介してターゲット(正しい)文を生成する。
我々は,この目標を達成するために,シンプルだが効果的なマスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-23T19:05:48Z) - Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine
Learning [1.7205106391379026]
柔らかい綴りの誤りは、アラビア語話者や外国の学習者にも広く見られる。
我々は、一連のBiLSTMネットワークを開発し、訓練し、評価し、比較し、この種のエラーを修正します。
最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%の低い文字エラー率を達成する。
論文 参考訳(メタデータ) (2021-08-02T19:47:55Z) - A Simple and Practical Approach to Improve Misspellings in OCR Text [0.0]
本稿では,OCRテキストにおける非単語誤りの同定と訂正に焦点を当てる。
従来のN-gram補正法は、1ワード誤りを効果的に処理できる。
本稿では,分割およびマージエラーを処理可能な教師なし手法を開発する。
論文 参考訳(メタデータ) (2021-06-22T19:38:17Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - Domain-shift Conditioning using Adaptable Filtering via Hierarchical
Embeddings for Robust Chinese Spell Check [29.041134293160255]
スペルチェックは、ノイズの多い人為的なテキストを処理する有用なアプリケーションである。
中国語のスペルチェックでは、混乱セットを用いたフィルタリングは検索スペースを狭め、修正の発見を容易にする。
本稿では,階層的な文字埋め込みを利用した拡張性のある適応可能なフィルタを提案する。
論文 参考訳(メタデータ) (2020-08-27T17:34:40Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。