論文の概要: Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects
- arxiv url: http://arxiv.org/abs/2406.19564v1
- Date: Thu, 27 Jun 2024 22:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:22:04.897431
- Title: Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects
- Title(参考訳): 音声:NLPの資源とヨルバ方言のモデル
- Authors: Orevaoghene Ahia, Anuoluwapo Aremu, Diana Abagyan, Hila Gonen, David Ifeoluwa Adelani, Daud Abolade, Noah A. Smith, Yulia Tsvetkov,
- Abstract要約: Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
- 参考スコア(独自算出の注目度): 72.18753241750964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Yor\`ub\'a an African language with roughly 47 million speakers encompasses a continuum with several dialects. Recent efforts to develop NLP technologies for African languages have focused on their standard dialects, resulting in disparities for dialects and varieties for which there are little to no resources or tools. We take steps towards bridging this gap by introducing a new high-quality parallel text and speech corpus YOR\`ULECT across three domains and four regional Yor\`ub\'a dialects. To develop this corpus, we engaged native speakers, travelling to communities where these dialects are spoken, to collect text and speech data. Using our newly created corpus, we conducted extensive experiments on (text) machine translation, automatic speech recognition, and speech-to-text translation. Our results reveal substantial performance disparities between standard Yor\`ub\'a and the other dialects across all tasks. However, we also show that with dialect-adaptive finetuning, we are able to narrow this gap. We believe our dataset and experimental analysis will contribute greatly to developing NLP tools for Yor\`ub\'a and its dialects, and potentially for other African languages, by improving our understanding of existing challenges and offering a high-quality dataset for further development. We release YOR\`ULECT dataset and models publicly under an open license.
- Abstract(参考訳): 約4700万人の話者を持つアフリカの言語Yor\`ub\'は、いくつかの方言を含む連続体を含んでいる。
アフリカ語のためのNLP技術開発への最近の取り組みは、標準方言に焦点を合わせており、その結果、ほとんど資源や道具が存在しない方言や品種の相違が生じている。
3つの領域と4つの地域Yor\ub\'a方言にまたがって、新しい高品質のパラレルテキストと音声コーパスYOR\`ULECTを導入することで、このギャップを埋める第一歩を踏み出します。
このコーパスを開発するために、我々は母国語話者と接触し、これらの方言が話されているコミュニティに旅行し、テキストや音声データを収集した。
新たに作成したコーパスを用いて、機械翻訳(テキスト)、音声認識、音声からテキストへの翻訳について広範な実験を行った。
以上の結果から,標準Yor\`ub\'aと,タスク間の他の方言間の性能の相違が明らかとなった。
しかし、方言適応的な微調整では、このギャップを狭めることができることも示している。
我々のデータセットと実験分析は、Yor\ub\'aとその方言のためのNLPツールの開発や、既存の課題に対する理解を深め、さらなる開発のための高品質なデータセットを提供することによって、他のアフリカの言語にも大きく貢献すると考えています。
オープンライセンスの下でYOR\`ULECTデータセットとモデルを公開する。
関連論文リスト
- BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization [7.059964549363294]
本研究は、方言のNoakhali音声を標準のBangla音声に変換するためのエンドツーエンドパイプラインを提案する。
約55の異なる方言が1億6000万人が話しており、バングラ方言に対処することは包括的コミュニケーションツールの開発に不可欠である。
実験の結果,Whisper ASRモデルが0.8%,WERが1.5%,BanglaT5モデルが41.6%,BLEUが41.6%であった。
論文 参考訳(メタデータ) (2024-11-16T20:20:15Z) - Exploring Diachronic and Diatopic Changes in Dialect Continua: Tasks, Datasets and Challenges [2.572144535177391]
我々は3つの言語族(スラヴ語、ロマンス語、ゲルマン語)から5つの方言にまたがる9つのタスクとデータセットを批判的に評価する。
本稿では,方言使用の経時的変化,方言データセットの信頼性,話者特性の重要性,方言の限られた範囲,データ収集における倫理的配慮に関する5つのオープンな課題を概説する。
言語の種類や方言の包括的計算手法やデータセットに関する今後の研究に光を当てることを願っています。
論文 参考訳(メタデータ) (2024-07-04T15:38:38Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Improving Yor\`ub\'a Diacritic Restoration [3.301896537513352]
ヨルバ語(Yorub'a)は西アフリカで広く話されている言語で、書記体系は正書法や音節の発音に富んでいる。
ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や、適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
事前訓練されたモデル、データセット、ソースコードはすべて、Yorub'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
論文 参考訳(メタデータ) (2020-03-23T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。