論文の概要: VSEC: Transformer-based Model for Vietnamese Spelling Correction
- arxiv url: http://arxiv.org/abs/2111.00640v1
- Date: Mon, 1 Nov 2021 00:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 04:15:22.934532
- Title: VSEC: Transformer-based Model for Vietnamese Spelling Correction
- Title(参考訳): VSEC:ベトナムのSpelling Correctionのためのトランスフォーマーベースモデル
- Authors: Dinh-Truong Do, Ha Thanh Nguyen, Thang Ngoc Bui, Dinh Hieu Vo
- Abstract要約: ベトナム語のスペル誤りを訂正する新しい手法を提案する。
深層学習モデルを用いて誤字誤りや誤字誤りの問題に対処する。
実験の結果,86.8%の誤差が検出され,81.5%の誤りが修正された。
- 参考スコア(独自算出の注目度): 0.19116784879310028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spelling error correction is one of topics which have a long history in
natural language processing. Although previous studies have achieved remarkable
results, challenges still exist. In the Vietnamese language, a state-of-the-art
method for the task infers a syllable's context from its adjacent syllables.
The method's accuracy can be unsatisfactory, however, because the model may
lose the context if two (or more) spelling mistakes stand near each other. In
this paper, we propose a novel method to correct Vietnamese spelling errors. We
tackle the problems of mistyped errors and misspelled errors by using a deep
learning model. The embedding layer, in particular, is powered by the byte pair
encoding technique. The sequence to sequence model based on the Transformer
architecture makes our approach different from the previous works on the same
problem. In the experiment, we train the model with a large synthetic dataset,
which is randomly introduced spelling errors. We test the performance of the
proposed method using a realistic dataset. This dataset contains 11,202
human-made misspellings in 9,341 different Vietnamese sentences. The
experimental results show that our method achieves encouraging performance with
86.8% errors detected and 81.5% errors corrected, which improves the
state-of-the-art approach 5.6% and 2.2%, respectively.
- Abstract(参考訳): スペル誤り訂正は、自然言語処理における長い歴史を持つトピックの1つである。
これまでの研究は目覚ましい成果を上げたが、依然として課題は残っている。
ベトナム語では、タスクの最先端の方法は、隣接する音節から音節の文脈を推測する。
しかし、2つの(あるいはそれ以上の)綴りミスが互いに近くにある場合、モデルはコンテキストを失う可能性があるため、この手法の精度は満足できない。
本稿では,ベトナム語の綴り誤りを訂正する新しい手法を提案する。
深層学習モデルを用いてミスタイプエラーとミススペルエラーの問題に取り組む。
特に埋め込み層はバイトペア符号化技術によって駆動される。
Transformerアーキテクチャに基づくシーケンスモデルとシーケンスモデルにより、我々のアプローチは、同じ問題に関する以前の研究とは異なるものになる。
実験では,スペルエラーをランダムに導入した大規模な合成データセットを用いてモデルを訓練する。
提案手法の性能を現実的なデータセットを用いて検証する。
このデータセットは、9,341の異なるベトナム語文に11,202の人造ミススペルを含んでいる。
実験の結果, 検出した86.8%の誤差と81.5%の誤りが検出され, それぞれ5.6%, 2.2%の改善が得られた。
関連論文リスト
- Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems [47.753284211200665]
我々は、事前訓練段階に直接「エラー訂正」データを組み込むことの有用性を理解することに注力する。
このデータは、即座に修正された誤った解ステップで構成されている。
このタイプの事前学習データにより、言語モデルの推論精度の向上が期待できる。
論文 参考訳(メタデータ) (2024-08-29T06:49:20Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings [2.2503811834154104]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Correcting diacritics and typos with ByT5 transformer model [0.0]
人々は、ダイアクリティカルを使ってタイピング時にタイプミス(タイポ)をする傾向がある。
本研究では,新たに開発されたByT5バイトレベルのトランスモデルを用いて,両問題に一度に対処する。
ダイアクリティカルス修復とタイポス補正の併用により,13言語における最先端性能が実証された。
論文 参考訳(メタデータ) (2022-01-31T13:52:51Z) - Hierarchical Transformer Encoders for Vietnamese Spelling Correction [1.0779600811805266]
ベトナム語スペル訂正問題に対する階層変換器モデルを提案する。
このモデルは、複数のトランスフォーマーエンコーダで構成され、文字レベルと単語レベルの両方を使用してエラーを検出し、修正する。
論文 参考訳(メタデータ) (2021-05-28T04:09:15Z) - Grammatical Error Generation Based on Translated Fragments [0.0]
英語の文法的誤り訂正のための大量のトレーニングデータを作成するために,文片のニューラルマシン翻訳を行う。
本手法は,第2言語学習者が犯した誤りをシミュレートすることを目的として,非ネイティブスタイル言語を幅広く生成する。
論文 参考訳(メタデータ) (2021-04-20T12:43:40Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。