論文の概要: Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling
Corrector
- arxiv url: http://arxiv.org/abs/2305.08518v1
- Date: Mon, 15 May 2023 10:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:03:20.618977
- Title: Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling
Corrector
- Title(参考訳): beqi: 頑健な綴り修正子でセネガル語のwolof言語を活性化する
- Authors: Derguene Mbaye, Moussa Diallo
- Abstract要約: 特にアフリカの言語は依然として遅れており、自動処理ツールがない。
合成データを生成することにより,データ不足に関連する制約に対処する方法を提案する。
We present sequence-to-sequence model using Deep Learning for spelling correct in Wolof。
- 参考スコア(独自算出の注目度): 0.40611352512781856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The progress of Natural Language Processing (NLP), although fast in recent
years, is not at the same pace for all languages. African languages in
particular are still behind and lack automatic processing tools. Some of these
tools are very important for the development of these languages but also have
an important role in many NLP applications. This is particularly the case for
automatic spell checkers. Several approaches have been studied to address this
task and the one modeling spelling correction as a translation task from
misspelled (noisy) text to well-spelled (correct) text shows promising results.
However, this approach requires a parallel corpus of noisy data on the one hand
and correct data on the other hand, whereas Wolof is a low-resource language
and does not have such a corpus. In this paper, we present a way to address the
constraint related to the lack of data by generating synthetic data and we
present sequence-to-sequence models using Deep Learning for spelling correction
in Wolof. We evaluated these models in three different scenarios depending on
the subwording method applied to the data and showed that the latter had a
significant impact on the performance of the models, which opens the way for
future research in Wolof spelling correction.
- Abstract(参考訳): 自然言語処理(NLP)の進歩は、近年は速いが、すべての言語で同じペースで進行しているわけではない。
特にアフリカの言語はまだ残っており、自動処理ツールが欠けている。
これらのツールの一部は、これらの言語の開発において非常に重要であるが、多くのNLPアプリケーションにおいて重要な役割を果たしている。
これは特に自動スペルチェッカーの場合である。
この課題に対処するためにいくつかのアプローチが研究され、誤り(ノイズ)テキストから適切な(正しい)テキストへの翻訳タスクとしてスペル補正をモデル化する手法が有望な結果を示している。
しかし、このアプローチではノイズの多いデータの並列コーパスと正しいデータが必要であり、一方でwolofは低リソース言語であり、そのようなコーパスを持っていない。
本稿では、合成データを生成することによってデータの欠如に関連する制約に対処し、Wolofのスペル訂正にDeep Learningを用いたシーケンス・ツー・シーケンス・モデルを提案する。
我々はこれらのモデルを,データに適用したサブワード法によって3つのシナリオで評価し,後者がモデルの性能に有意な影響を与え,Wolofスペル補正の今後の研究の道を開くことを示した。
関連論文リスト
- Large corpora and large language models: a replicable method for automating grammatical annotation [0.0]
英語評価動詞構築における形式的変化の事例研究に応用された方法論的パイプライン「consider X (as) (to be) Y」を紹介する。
少数のトレーニングデータだけで、保留中のテストサンプルで90%以上の精度でモデルに到達します。
本研究は, 文法的構成と文法的変化および変化に関する幅広いケーススタディに対して, 結果の一般化可能性について論じる。
論文 参考訳(メタデータ) (2024-11-18T03:29:48Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Automatic Spell Checker and Correction for Under-represented Spoken
Languages: Case Study on Wolof [9.79241237464453]
本稿では,アフリカにおける低表現言語であるWolofのためのスペルチェッカーと修正ツールを提案する。
提案するスペルチェッカーは, トリエデータ構造, 動的プログラミング, 重み付きレベンシュテイン距離の組み合わせを利用して, ミススペル語の提案を生成する。
Wolofのデータは限られていたが、スペルチェッカーのパフォーマンスは予測精度98.31%、提案精度93.33%であった。
論文 参考訳(メタデータ) (2023-05-22T04:03:20Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。