論文の概要: Automatic Spell Checker and Correction for Under-represented Spoken
Languages: Case Study on Wolof
- arxiv url: http://arxiv.org/abs/2305.12694v1
- Date: Mon, 22 May 2023 04:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:38:14.341624
- Title: Automatic Spell Checker and Correction for Under-represented Spoken
Languages: Case Study on Wolof
- Title(参考訳): 弱表現音声言語の自動スペルチェッカーと補正:Wolofを事例として
- Authors: Thierno Ibrahima Ciss\'e and Fatiha Sadat
- Abstract要約: 本稿では,アフリカにおける低表現言語であるWolofのためのスペルチェッカーと修正ツールを提案する。
提案するスペルチェッカーは, トリエデータ構造, 動的プログラミング, 重み付きレベンシュテイン距離の組み合わせを利用して, ミススペル語の提案を生成する。
Wolofのデータは限られていたが、スペルチェッカーのパフォーマンスは予測精度98.31%、提案精度93.33%であった。
- 参考スコア(独自算出の注目度): 9.79241237464453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a spell checker and correction tool specifically designed
for Wolof, an under-represented spoken language in Africa. The proposed spell
checker leverages a combination of a trie data structure, dynamic programming,
and the weighted Levenshtein distance to generate suggestions for misspelled
words. We created novel linguistic resources for Wolof, such as a lexicon and a
corpus of misspelled words, using a semi-automatic approach that combines
manual and automatic annotation methods. Despite the limited data available for
the Wolof language, the spell checker's performance showed a predictive
accuracy of 98.31% and a suggestion accuracy of 93.33%. Our primary focus
remains the revitalization and preservation of Wolof as an Indigenous and
spoken language in Africa, providing our efforts to develop novel linguistic
resources. This work represents a valuable contribution to the growth of
computational tools and resources for the Wolof language and provides a strong
foundation for future studies in the automatic spell checking and correction
field.
- Abstract(参考訳): 本稿では,アフリカにおける低表現言語であるWolofのためのスペルチェッカーと修正ツールを提案する。
提案するスペルチェッカーは, トリエデータ構造, 動的プログラミング, 重み付きレベンシュテイン距離の組み合わせを利用して, ミススペル語の提案を生成する。
手動と自動アノテーションを併用した半自動的なアプローチを用いて,辞書や誤字単語のコーパスなど,wolofのための新たな言語資源を作成した。
Wolof言語で利用可能なデータは限られていたが、スペルチェッカーのパフォーマンスは予測精度98.31%、提案精度93.33%であった。
我々の主な焦点は、アフリカにおける母国語および話し言葉としてのwolofの再生と保存であり、新しい言語資源の開発に向けた努力である。
この研究は、wolof言語のための計算ツールとリソースの成長への貴重な貢献であり、自動スペルチェックと修正分野における将来の研究のための強力な基礎を提供する。
関連論文リスト
- Large corpora and large language models: a replicable method for automating grammatical annotation [0.0]
英語評価動詞構築における形式的変化の事例研究に応用された方法論的パイプライン「consider X (as) (to be) Y」を紹介する。
少数のトレーニングデータだけで、保留中のテストサンプルで90%以上の精度でモデルに到達します。
本研究は, 文法的構成と文法的変化および変化に関する幅広いケーススタディに対して, 結果の一般化可能性について論じる。
論文 参考訳(メタデータ) (2024-11-18T03:29:48Z) - Neural spell-checker: Beyond words with synthetic data generation [0.0]
スペルチェックは、テキスト中のミススペルされた単語を識別することでコミュニケーションを強化する貴重なツールである。
近年のディープラーニングの改良により、従来のスペルチェッカーを新たな機能で改善する新たな機会が開けている。
我々は2つの新しいスペルチェッカーを提示、比較し、それらを合成、学習、より一般的なSloveneデータセット上で評価する。
論文 参考訳(メタデータ) (2024-10-30T23:51:01Z) - From English-Centric to Effective Bilingual: LLMs with Custom Tokenizers for Underrepresented Languages [0.5706164516481158]
そこで本研究では,二言語ベース大言語モデル (LLM) を開発するための,モデルに依存しないコスト効率のアプローチを提案する。
私たちは3つの言語で実験を行い、それぞれが非ラテン文字(ウクライナ語、アラビア語、グルジア語)を使用しました。
論文 参考訳(メタデータ) (2024-10-24T15:20:54Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling
Corrector [0.40611352512781856]
特にアフリカの言語は依然として遅れており、自動処理ツールがない。
合成データを生成することにより,データ不足に関連する制約に対処する方法を提案する。
We present sequence-to-sequence model using Deep Learning for spelling correct in Wolof。
論文 参考訳(メタデータ) (2023-05-15T10:28:36Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - Improving Yor\`ub\'a Diacritic Restoration [3.301896537513352]
ヨルバ語(Yorub'a)は西アフリカで広く話されている言語で、書記体系は正書法や音節の発音に富んでいる。
ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や、適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
事前訓練されたモデル、データセット、ソースコードはすべて、Yorub'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
論文 参考訳(メタデータ) (2020-03-23T22:07:15Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。