論文の概要: Hierarchical Character Tagger for Short Text Spelling Error Correction
- arxiv url: http://arxiv.org/abs/2109.14259v1
- Date: Wed, 29 Sep 2021 08:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 22:09:39.684228
- Title: Hierarchical Character Tagger for Short Text Spelling Error Correction
- Title(参考訳): 短文綴り誤り訂正のための階層型文字タガー
- Authors: Mengyi Gao, Canran Xu, Peng Shi
- Abstract要約: 短文スペル誤り訂正のための階層的文字タガーモデル(HCTagger)を提案する。
文字レベルの事前訓練された言語モデルをテキストエンコーダとして使用し、文字レベルの編集を予測して、元のテキストをエラーのない形式に変換し、ラベル空間をはるかに小さくする。
2つの公開ミススペル補正データセットの実験では、HCTaggerは既存のモデルよりも正確ではるかに高速なアプローチであることが示されている。
- 参考スコア(独自算出の注目度): 27.187562419222218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art approaches to spelling error correction problem include
Transformer-based Seq2Seq models, which require large training sets and suffer
from slow inference time; and sequence labeling models based on Transformer
encoders like BERT, which involve token-level label space and therefore a large
pre-defined vocabulary dictionary. In this paper we present a Hierarchical
Character Tagger model, or HCTagger, for short text spelling error correction.
We use a pre-trained language model at the character level as a text encoder,
and then predict character-level edits to transform the original text into its
error-free form with a much smaller label space. For decoding, we propose a
hierarchical multi-task approach to alleviate the issue of long-tail label
distribution without introducing extra model parameters. Experiments on two
public misspelling correction datasets demonstrate that HCTagger is an accurate
and much faster approach than many existing models.
- Abstract(参考訳): 綴り誤り訂正問題に対する最先端のアプローチには、大きなトレーニングセットを必要とするTransformerベースのSeq2Seqモデルと、トークンレベルのラベル空間を含むBERTのようなTransformerエンコーダに基づくシーケンスラベルモデルがあり、したがって大きな事前定義された語彙辞書がある。
本稿では,短い文字スペル誤り訂正のための階層型文字タガーモデル(hctagger)を提案する。
テキストエンコーダとして文字レベルで事前学習された言語モデルを使用し、文字レベルの編集を予測して元のテキストをエラーのない形式に変換し、ラベルスペースを小さくする。
復号化のために,モデルパラメータを余分に導入することなく,長期ラベル分布の問題を軽減する階層型マルチタスク手法を提案する。
2つの公開ミススペル補正データセットの実験では、HCTaggerは既存のモデルよりも正確ではるかに高速なアプローチであることが示されている。
関連論文リスト
- Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文 参考訳(メタデータ) (2023-05-29T06:35:40Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - Capitalization Normalization for Language Modeling with an Accurate and
Efficient Hierarchical RNN Model [12.53710938104476]
本稿では,高速で高精度でコンパクトな2階層型単語と文字に基づくリカレントニューラルネットワークモデルを提案する。
言語モデリングのためのFederated Learningフレームワークでは、 truecaserを使ってユーザ生成テキストを正規化しています。
論文 参考訳(メタデータ) (2022-02-16T16:21:53Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Grammatical Error Correction as GAN-like Sequence Labeling [45.19453732703053]
本稿では,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤り検出器とからなるGANライクなシーケンスラベリングモデルを提案する。
いくつかの評価ベンチマークの結果、提案手法は有効であり、従来の最先端のベースラインを改善することが示されている。
論文 参考訳(メタデータ) (2021-05-29T04:39:40Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。