論文の概要: BSpell: A CNN-blended BERT Based Bengali Spell Checker
- arxiv url: http://arxiv.org/abs/2208.09709v1
- Date: Sat, 20 Aug 2022 15:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:58:15.355838
- Title: BSpell: A CNN-blended BERT Based Bengali Spell Checker
- Title(参考訳): BSpell: CNNによるBERTベースのBengali Spell Checker
- Authors: Chowdhury Rafeed Rahman, MD. Hasibur Rahman, Samiha Zakir, Mohammad
Rafsan, Mohammed Eunus Ali
- Abstract要約: ミススペルされた単語の訂正には、単語の型付けパターンだけでなく、単語の使用状況も理解する必要がある。
文レベルにおける単語訂正のための単語を対象とする特殊BERTモデルBSpellを提案する。
BSpellには、セマンティックネットと呼ばれるエンドツーエンドのトレーニング可能なCNNサブモデルと、特別な補助的損失が含まれている。
- 参考スコア(独自算出の注目度): 1.2687030176231846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bengali typing is mostly performed using English keyboard and can be highly
erroneous due to the presence of compound and similarly pronounced letters.
Spelling correction of a misspelled word requires understanding of word typing
pattern as well as the context of the word usage. We propose a specialized BERT
model, BSpell targeted towards word for word correction in sentence level.
BSpell contains an end-to-end trainable CNN sub-model named SemanticNet along
with specialized auxiliary loss. This allows BSpell to specialize in highly
inflected Bengali vocabulary in the presence of spelling errors. We further
propose hybrid pretraining scheme for BSpell combining word level and character
level masking. Utilizing this pretraining scheme, BSpell achieves 91.5%
accuracy on real life Bengali spelling correction validation set. Detailed
comparison on two Bengali and one Hindi spelling correction dataset shows the
superiority of proposed BSpell over existing spell checkers.
- Abstract(参考訳): ベンガルのタイピングは主に英語のキーボードで行われており、複合文字や同様に発音される文字が存在するため、非常に誤りがある。
スペルミスされた単語のスペル訂正には、単語の型付けパターンの理解と、単語の使用状況が必要である。
文レベルにおける単語訂正のための単語を対象とする特殊BERTモデルBSpellを提案する。
BSpellには、セマンティックネットと呼ばれるエンドツーエンドのトレーニング可能なCNNサブモデルと、特別な補助的損失が含まれている。
これにより、BSpellはスペルエラーの存在下で高度に屈折したベンガル語彙を専門化することができる。
さらに,単語レベルと文字レベルマスキングを組み合わせたbspellのハイブリッドプリトレーニング方式を提案する。
この事前訓練スキームを利用することで、BSpellは実生活のベンガル文字のスペル補正セットで91.5%の精度を達成する。
2つのベンガル語と1つのヒンディー語の綴り訂正データセットの詳細な比較は、既存の綴りチェッカーよりもbspellの方が優れていることを示している。
関連論文リスト
- Enhancing Bangla Language Next Word Prediction and Sentence Completion through Extended RNN with Bi-LSTM Model On N-gram Language [1.3693860189056777]
本稿では,Banglaの次単語予測とBangla文生成を効果的に処理するBi-LSTMモデルを提案する。
bdnews24, BBC News Bangla, Prothom Aloなど,様々なニュースポータルからコーパスデータセットを構築した。
提案手法は単語予測において優れた結果が得られ、4-gramおよび5-gramの単語予測において99%の精度が得られた。
論文 参考訳(メタデータ) (2024-05-03T06:06:01Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine
Learning [1.7205106391379026]
柔らかい綴りの誤りは、アラビア語話者や外国の学習者にも広く見られる。
我々は、一連のBiLSTMネットワークを開発し、訓練し、評価し、比較し、この種のエラーを修正します。
最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%の低い文字エラー率を達成する。
論文 参考訳(メタデータ) (2021-08-02T19:47:55Z) - Misspelling Correction with Pre-trained Contextual Language Model [0.0]
BERTと編集距離アルゴリズムに基づく2つの実験を行い、候補補正のランキングと選択を行います。
実験の結果,BERTの文脈単語埋め込みと編集距離を適切に組み合わせることで,スペルエラーを効果的に修正できることが判明した。
論文 参考訳(メタデータ) (2021-01-08T20:11:01Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - BERT for Monolingual and Cross-Lingual Reverse Dictionary [56.8627517256663]
本稿では,BERTが特定のタスクの目的語を生成するための,シンプルだが効果的な手法を提案する。
BERT (mBERT) を用いることで,1つの単語を埋め込んだ言語間逆辞書を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-09-30T17:00:10Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Synthetic Error Dataset Generation Mimicking Bengali Writing Pattern [0.0]
本稿では,正しい単語からベンガル語を自動的に生成するアルゴリズムを提案する。
分析の一環として、最もよく使われているベンガル語の一覧を作成した。
論文 参考訳(メタデータ) (2020-03-07T01:52:19Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。