論文の概要: Text Normalization for Low-Resource Languages of Africa
- arxiv url: http://arxiv.org/abs/2103.15845v1
- Date: Mon, 29 Mar 2021 18:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 08:50:54.393836
- Title: Text Normalization for Low-Resource Languages of Africa
- Title(参考訳): アフリカ低資源言語のためのテキスト正規化
- Authors: Andrew Zupon, Evan Crew, Sandy Ritchie
- Abstract要約: 本研究では,アフリカの低リソース言語群におけるテキスト正規化とデータセット品質の影響について検討する。
我々は、有限状態トランスデューサのためのPythonライブラリであるPyniniフレームワークで構築したテキスト正規化器と、アフリカ言語のための言語モデルのトレーニング実験について説明する。
- 参考スコア(独自算出の注目度): 1.5766133856827325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data for machine learning models can come from many different
sources, which can be of dubious quality. For resource-rich languages like
English, there is a lot of data available, so we can afford to throw out the
dubious data. For low-resource languages where there is much less data
available, we can't necessarily afford to throw out the dubious data, in case
we end up with a training set which is too small to train a model. In this
study, we examine the effects of text normalization and data set quality for a
set of low-resource languages of Africa -- Afrikaans, Amharic, Hausa, Igbo,
Malagasy, Somali, Swahili, and Zulu. We describe our text normalizer which we
built in the Pynini framework, a Python library for finite state transducers,
and our experiments in training language models for African languages using the
Natural Language Toolkit (NLTK), an open-source Python library for NLP.
- Abstract(参考訳): 機械学習モデルのトレーニングデータは、疑わしい品質のさまざまなソースから得ることができる。
英語のようなリソース豊富な言語では、多くのデータが利用できるので、疑わしいデータを捨てる余裕があります。
利用可能なデータがはるかに少ない低リソースの言語では、モデルをトレーニングするには小さすぎるトレーニングセットで終わる場合に備えて、必ずしも疑わしいデータを捨てる余裕はありません。
本研究では,アフリカアフリカーンス語,アムハラ語,ハウサ語,イグボ語,マラガシ語,ソマリ語,スワヒリ語,ズールー語などの低資源言語に対するテキスト正規化とデータセット品質の影響について検討した。
我々は、有限状態トランスデューサのためのPythonライブラリであるPyniniフレームワークで構築したテキスト正規化器と、NLP用のオープンソースのPythonライブラリであるNatural Language Toolkit(NLTK)を使用してアフリカ言語の言語モデルをトレーニングする実験について説明する。
関連論文リスト
- CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - AfroLM: A Self-Active Learning-based Multilingual Pretrained Language
Model for 23 African Languages [0.021987601456703476]
AfroLMは、23のアフリカ語でスクラッチから事前訓練された多言語言語モデルである。
AfroLMは、既存のベースラインよりも小さいデータセット14xで事前訓練される。
様々な領域にまたがってうまく一般化することができる。
論文 参考訳(メタデータ) (2022-11-07T02:15:25Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。