論文の概要: OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo
- arxiv url: http://arxiv.org/abs/2103.07762v1
- Date: Sat, 13 Mar 2021 18:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 09:23:48.379911
- Title: OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo
- Title(参考訳): OkwuGb\'e: FonとIgboのエンドツーエンド音声認識
- Authors: Bonaventure F. P. Dossou and Chris C. Emezue
- Abstract要約: 本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。
本稿では,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。
- 参考スコア(独自算出の注目度): 0.015863809575305417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language is inherent and compulsory for human communication. Whether
expressed in a written or spoken way, it ensures understanding between people
of the same and different regions. With the growing awareness and effort to
include more low-resourced languages in NLP research, African languages have
recently been a major subject of research in machine translation, and other
text-based areas of NLP. However, there is still very little comparable
research in speech recognition for African languages. Interestingly, some of
the unique properties of African languages affecting NLP, like their
diacritical and tonal complexities, have a major root in their speech,
suggesting that careful speech interpretation could provide more intuition on
how to deal with the linguistic complexities of African languages for
text-based NLP. OkwuGb\'e is a step towards building speech recognition systems
for African low-resourced languages. Using Fon and Igbo as our case study, we
conduct a comprehensive linguistic analysis of each language and describe the
creation of end-to-end, deep neural network-based speech recognition models for
both languages. We present a state-of-art ASR model for Fon, as well as
benchmark ASR model results for Igbo. Our linguistic analyses (for Fon and
Igbo) provide valuable insights and guidance into the creation of speech
recognition models for other African low-resourced languages, as well as guide
future NLP research for Fon and Igbo. The Fon and Igbo models source code have
been made publicly available.
- Abstract(参考訳): 言語は人間のコミュニケーションには本質的に必須である。
書き言葉か話し言葉かにかかわらず、同じ地域の人々と異なる地域の人々の間での理解が保証される。
NLP研究に低リソース言語を取り入れることへの認識と努力が高まり、近年、アフリカ言語は機械翻訳やその他のNLPのテキストベースの分野の研究の中心となっている。
しかし、いまだにアフリカの言語の音声認識に匹敵する研究は少ない。
興味深いことに、nlpに影響を及ぼすアフリカ語の特徴、例えばダイアクリティカルや声調の複合性は、言語の主要な根源であり、注意深い音声解釈は、テキストベースのnlpのためのアフリカの言語の言語的複雑さに対処するためのより直感的な方法をもたらす可能性があることを示唆している。
OkwuGb\'eは、アフリカの低リソース言語のための音声認識システムを構築するためのステップである。
Fon と Igbo をケーススタディとして,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。
本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。
我々の言語分析(FonとIgbo)は、他のアフリカの低リソース言語のための音声認識モデルの作成に関する貴重な洞察とガイダンスを提供し、FonとIgboの今後のNLP研究をガイドする。
FonとIgboモデルのソースコードが公開されている。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - The Ghanaian NLP Landscape: A First Look [9.17372840572907]
特にガーナ語は絶滅が記録され、いくつかは危険にさらされている。
本研究は、ガーナ語に焦点をあてた自然言語処理(NLP)研究の包括的調査のパイオニアである。
論文 参考訳(メタデータ) (2024-05-10T21:39:09Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z) - AfriVEC: Word Embedding Models for African Languages. Case Study of Fon
and Nobiin [0.015863809575305417]
FonとNobiin用のWord2VecとPoincarのワード埋め込みモデルを構築します。
私たちの主な貢献は、アフリカの言語に適した単語埋め込みモデルを作成することへの関心を高めることです。
論文 参考訳(メタデータ) (2021-03-08T22:58:20Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。