論文の概要: A Methodology for Generative Spelling Correction via Natural Spelling
Errors Emulation across Multiple Domains and Languages
- arxiv url: http://arxiv.org/abs/2308.09435v1
- Date: Fri, 18 Aug 2023 10:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:36:04.589025
- Title: A Methodology for Generative Spelling Correction via Natural Spelling
Errors Emulation across Multiple Domains and Languages
- Title(参考訳): 複数のドメインや言語にまたがる自然なスペルエラーエミュレーションによるジェネレーションスペル補正の一手法
- Authors: Nikita Martynov, Mark Baushenko, Anastasia Kozlova, Katerina
Kolomeytseva, Aleksandr Abramov, Alena Fenogenova
- Abstract要約: 本稿では,英語とロシア語でテストした生成スペル補正法について述べる。
本研究では,これらの誤りを正しい文でエミュレートして生成モデルの事前訓練手順を効果的に強化する方法について検討する。
本研究の成果として,自動生成SCライブラリとしてSAGE(Spell check via Augmentation and Generative Distribution Emulation)を導入する。
- 参考スコア(独自算出の注目度): 39.75847219395984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models demonstrate impressive capabilities in text
generation and generalization. However, they often struggle with solving text
editing tasks, particularly when it comes to correcting spelling errors and
mistypings. In this paper, we present a methodology for generative spelling
correction (SC), which was tested on English and Russian languages and
potentially can be extended to any language with minor changes. Our research
mainly focuses on exploring natural spelling errors and mistypings in texts and
studying the ways those errors can be emulated in correct sentences to
effectively enrich generative models' pre-train procedure. We investigate the
impact of such emulations and the models' abilities across different text
domains. In this work, we investigate two spelling corruption techniques: 1)
first one mimics human behavior when making a mistake through leveraging
statistics of errors from particular dataset and 2) second adds the most common
spelling errors, keyboard miss clicks, and some heuristics within the texts. We
conducted experiments employing various corruption strategies, models'
architectures and sizes on the pre-training and fine-tuning stages and
evaluated the models using single-domain and multi-domain test sets. As a
practical outcome of our work, we introduce SAGE (Spell checking via
Augmentation and Generative distribution Emulation) is a library for automatic
generative SC that includes a family of pre-trained generative models and
built-in augmentation algorithms.
- Abstract(参考訳): 現代の大きな言語モデルは、テキスト生成と一般化の素晴らしい能力を示している。
しかし、特にスペルミスやミスタイピングの修正に関しては、テキスト編集タスクの解決に苦労することが多い。
本稿では,英語とロシア語でテストされた生成的綴り補正 (generative spelling correction,sc) の手法について述べる。
本研究は,テキスト中の自然な綴り誤りやミスタイピングを探索し,その誤りを正しい文でエミュレートする方法を研究し,生成モデルの事前学習手順を効果的に強化する。
このようなエミュレーションの影響と異なるテキスト領域におけるモデルの能力について検討する。
本研究では,2つの綴り腐敗手法について検討する。
1)まず、特定のデータセットからエラーの統計を利用して、ミスをする際の人間の行動を模倣し、
2) 第二に、最も一般的なスペルエラー、キーボードミスクリック、そしてテキスト内のヒューリスティックが加わった。
我々は,事前学習および微調整段階における各種腐敗戦略,モデルアーキテクチャ,サイズを用いた実験を行い,単一ドメインおよび複数ドメインテストセットを用いたモデル評価を行った。
SAGE(Spell check via Augmentation and Generative Distribution Emulation)は,事前学習した生成モデル群と組込み拡張アルゴリズムを含む自動生成SCのためのライブラリである。
関連論文リスト
- EdaCSC: Two Easy Data Augmentation Methods for Chinese Spelling Correction [0.0]
Chinese Spelling Correction (CSC) は、音韻的・視覚的類似性に起因する中国語文の綴り誤りを検出し、訂正することを目的としている。
これらの制約に対処する2つのデータ拡張手法を提案する。
まず,長文を短い文に分割するか,複数文字の文の型を減らしてデータセットを増強する。
論文 参考訳(メタデータ) (2024-09-08T14:29:10Z) - A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance [1.7000578646860536]
最も多い書き込みエラーのうち、スペルミスは、様々な要因によって頻繁に発生する。
本研究の目的は,ニューラルネットワークを用いてテキスト中の多様な綴り誤りを特定し,修正することである。
論文 参考訳(メタデータ) (2024-07-24T16:07:11Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Spelling Correction with Denoising Transformer [0.0]
本稿では,検索クエリや個々の単語など,短い入力文字列に対してスペル補正を行う手法を提案する。
その核となるのは、人間が示すエラーパターンに密接に従う人工的タイプミスを生成する手順である。
この手順は、トランスアーキテクチャに基づく生産スペル補正モデルのトレーニングに使用されます。
論文 参考訳(メタデータ) (2021-05-12T21:35:18Z) - Neural Text Generation with Artificial Negative Examples [7.187858820534111]
強化学習フレームワークでテキスト生成モデルを訓練することにより,任意のタイプのエラーを抑制することを提案する。
我々は、目標となるタイプのエラーを含む参照と文を識別できる訓練可能な報酬関数を使用する。
実験の結果,生成誤差の抑制と2つの機械翻訳と2つの画像キャプションタスクの大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2020-12-28T07:25:10Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。