論文の概要: Synthetic Error Dataset Generation Mimicking Bengali Writing Pattern
- arxiv url: http://arxiv.org/abs/2003.03484v2
- Date: Thu, 21 May 2020 15:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:50:48.040350
- Title: Synthetic Error Dataset Generation Mimicking Bengali Writing Pattern
- Title(参考訳): ベンガル文字パターンを模倣する合成誤差データセット生成
- Authors: Md. Habibur Rahman Sifat, Chowdhury Rafeed Rahman, Mohammad Rafsan,
Md. Hasibur Rahman
- Abstract要約: 本稿では,正しい単語からベンガル語を自動的に生成するアルゴリズムを提案する。
分析の一環として、最もよく使われているベンガル語の一覧を作成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While writing Bengali using English keyboard, users often make spelling
mistakes. The accuracy of any Bengali spell checker or paragraph correction
module largely depends on the kind of error dataset it is based on. Manual
generation of such error dataset is a cumbersome process. In this research, We
present an algorithm for automatic misspelled Bengali word generation from
correct word through analyzing Bengali writing pattern using QWERTY layout
English keyboard. As part of our analysis, we have formed a list of most
commonly used Bengali words, phonetically similar replaceable clusters,
frequently mispressed replaceable clusters, frequently mispressed insertion
prone clusters and some rules for Juktakkhar (constant letter clusters)
handling while generating errors.
- Abstract(参考訳): 英語のキーボードを使ってベンガルを書くとき、ユーザーはスペルミスをすることが多い。
任意のベンガルスペルチェッカーまたは段落補正モジュールの精度は、そのベースとするエラーデータセットの種類に大きく依存する。
このようなエラーデータセットの手動生成は面倒なプロセスです。
そこで本研究では,qwerty layout 英語キーボードを用いたベンガル文字パターンの分析により,正しい単語からベンガル単語の自動生成を行うアルゴリズムを提案する。
分析の一部として、最も一般的に使用されるベンガル語の単語のリスト、音声的に類似した置換可能なクラスタ、しばしば抑圧された置換可能なクラスタ、しばしば抑圧された挿入性プロンクラスタ、エラーを生成しながらjuktakkhar(constant letter clusters)を扱ういくつかのルールを作成しました。
関連論文リスト
- Tibyan Corpus: Balanced and Comprehensive Error Coverage Corpus Using ChatGPT for Arabic Grammatical Error Correction [0.32885740436059047]
本研究の目的は,ChatGPTを用いた文法的誤り訂正のためのアラビア語コーパス"Tibyan"を開発することである。
ChatGPTは、アラビア語の本から抽出された誤りのない文と一致した文法的な誤りを含む一対のアラビア語の文に基づいてデータ拡張ツールとして使用される。
私たちのコーパスには、正書法、構文、意味論、句読法、形態学、分割という7つのタイプを含む49のエラーが含まれていました。
論文 参考訳(メタデータ) (2024-11-07T10:17:40Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Probing for the Usage of Grammatical Number [103.8175326220026]
私たちは、モデルが実際に使用しているエンコーディングを見つけようと試み、使用量ベースの探索設定を導入しました。
BERTの文法的数値のエンコード方法と,このエンコーディングを用いて数値合意課題を解決する方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-04-19T11:59:52Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - Spelling Correction with Denoising Transformer [0.0]
本稿では,検索クエリや個々の単語など,短い入力文字列に対してスペル補正を行う手法を提案する。
その核となるのは、人間が示すエラーパターンに密接に従う人工的タイプミスを生成する手順である。
この手順は、トランスアーキテクチャに基づく生産スペル補正モデルのトレーニングに使用されます。
論文 参考訳(メタデータ) (2021-05-12T21:35:18Z) - Vartani Spellcheck -- Automatic Context-Sensitive Spelling Correction of
OCR-generated Hindi Text Using BERT and Levenshtein Distance [3.0422254248414276]
Vartani Spellcheck はヒンディー語テキストのスペル補正のための文脈依存型アプローチである。
81%の精度で, 従来確立されていたヒンディー語における文脈依存的誤り訂正機構よりも有意な改善が認められた。
論文 参考訳(メタデータ) (2020-12-14T15:49:54Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - A Large Multi-Target Dataset of Common Bengali Handwritten Graphemes [1.009810782568186]
そこで本稿では, 単語を線形に分割するラベリング手法を提案する。
データセットには、1295のユニークなベンガルグラフエムの411kのキュレートされたサンプルが含まれている。
このデータセットは、Kaggleの公開手書きグラフ分類チャレンジの一部として、オープンソースとして公開されている。
論文 参考訳(メタデータ) (2020-10-01T01:51:45Z) - Development of POS tagger for English-Bengali Code-Mixed data [14.298803822659934]
我々は,英語とベンガル語の単語がローマ文字で書かれるような,英語とベンガル語の混成データをPOSタグでタグ付けできるシステムを構築した。
私たちのシステムは、手動でPOSタグ付きコード混合文100個を用いてチェックされ、75.29%の精度で返却された。
論文 参考訳(メタデータ) (2020-07-29T03:42:07Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。