論文の概要: BSpell: A CNN-Blended BERT Based Bangla Spell Checker
- arxiv url: http://arxiv.org/abs/2208.09709v2
- Date: Mon, 1 Jan 2024 01:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 03:22:09.933060
- Title: BSpell: A CNN-Blended BERT Based Bangla Spell Checker
- Title(参考訳): BSpell: CNN対応のBERTベースのバングラスペルチェッカー
- Authors: Chowdhury Rafeed Rahman, MD. Hasibur Rahman, Samiha Zakir, Mohammad
Rafsan, Mohammed Eunus Ali
- Abstract要約: 誤字の訂正には、単語の型付けパターンと文脈を理解する必要がある。
BSpell という名称の BERT モデルは,文レベルでの単語訂正を目標にしている。
BSpellには、セマンティックネットと呼ばれるエンドツーエンドのトレーニング可能なCNNサブモデルと、特別な補助的損失が含まれている。
- 参考スコア(独自算出の注目度): 1.2312044062648642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bangla typing is mostly performed using English keyboard and can be highly
erroneous due to the presence of compound and similarly pronounced letters.
Spelling correction of a misspelled word requires understanding of word typing
pattern as well as the context of the word usage. A specialized BERT model
named BSpell has been proposed in this paper targeted towards word for word
correction in sentence level. BSpell contains an end-to-end trainable CNN
sub-model named SemanticNet along with specialized auxiliary loss. This allows
BSpell to specialize in highly inflected Bangla vocabulary in the presence of
spelling errors. Furthermore, a hybrid pretraining scheme has been proposed for
BSpell that combines word level and character level masking. Comparison on two
Bangla and one Hindi spelling correction dataset shows the superiority of our
proposed approach. BSpell is available as a Bangla spell checking tool via
GitHub: https://github.com/Hasiburshanto/Bangla-Spell-Checker
- Abstract(参考訳): バングラのタイピングは主に英語のキーボードで行われており、複合文字や同様に発音される文字が存在するため、非常に誤りがある。
スペルミスされた単語のスペル訂正には、単語の型付けパターンの理解と、単語の使用状況が必要である。
本稿では,BSpell という名称の特殊BERTモデルを提案する。
BSpellには、セマンティックネットと呼ばれるエンドツーエンドのトレーニング可能なCNNサブモデルと、特別な補助的損失が含まれている。
これにより、BSpellはスペルエラーの存在下で高度に屈折したバングラ語彙を専門化することができる。
さらに,単語レベルと文字レベルのマスキングを組み合わせたハイブリッド事前学習方式が提案されている。
2つのバングラと1つのヒンディー語スペル補正データセットの比較は,提案手法の優位性を示している。
BSpellはGitHub経由でBanglaスペルチェックツールとして利用できる。
関連論文リスト
- Enhancing Bangla Language Next Word Prediction and Sentence Completion through Extended RNN with Bi-LSTM Model On N-gram Language [1.3693860189056777]
本稿では,Banglaの次単語予測とBangla文生成を効果的に処理するBi-LSTMモデルを提案する。
bdnews24, BBC News Bangla, Prothom Aloなど,様々なニュースポータルからコーパスデータセットを構築した。
提案手法は単語予測において優れた結果が得られ、4-gramおよび5-gramの単語予測において99%の精度が得られた。
論文 参考訳(メタデータ) (2024-05-03T06:06:01Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine
Learning [1.7205106391379026]
柔らかい綴りの誤りは、アラビア語話者や外国の学習者にも広く見られる。
我々は、一連のBiLSTMネットワークを開発し、訓練し、評価し、比較し、この種のエラーを修正します。
最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%の低い文字エラー率を達成する。
論文 参考訳(メタデータ) (2021-08-02T19:47:55Z) - Misspelling Correction with Pre-trained Contextual Language Model [0.0]
BERTと編集距離アルゴリズムに基づく2つの実験を行い、候補補正のランキングと選択を行います。
実験の結果,BERTの文脈単語埋め込みと編集距離を適切に組み合わせることで,スペルエラーを効果的に修正できることが判明した。
論文 参考訳(メタデータ) (2021-01-08T20:11:01Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - BERT for Monolingual and Cross-Lingual Reverse Dictionary [56.8627517256663]
本稿では,BERTが特定のタスクの目的語を生成するための,シンプルだが効果的な手法を提案する。
BERT (mBERT) を用いることで,1つの単語を埋め込んだ言語間逆辞書を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-09-30T17:00:10Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Synthetic Error Dataset Generation Mimicking Bengali Writing Pattern [0.0]
本稿では,正しい単語からベンガル語を自動的に生成するアルゴリズムを提案する。
分析の一環として、最もよく使われているベンガル語の一覧を作成した。
論文 参考訳(メタデータ) (2020-03-07T01:52:19Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。