論文の概要: Using Radio Archives for Low-Resource Speech Recognition: Towards an
Intelligent Virtual Assistant for Illiterate Users
- arxiv url: http://arxiv.org/abs/2104.13083v1
- Date: Tue, 27 Apr 2021 10:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 19:33:52.894935
- Title: Using Radio Archives for Low-Resource Speech Recognition: Towards an
Intelligent Virtual Assistant for Illiterate Users
- Title(参考訳): 低リソース音声認識のための無線アーカイブの利用 : 視覚障害者向け知的仮想アシスタントに向けて
- Authors: Moussa Doumbouya, Lisa Einstein, Chris Piech
- Abstract要約: 多くの国では、低リソース言語のみを話す傾向があります。
ノイズの多いラジオ放送アーカイブにおける教師なし音声表現学習の有効性を検討する。
我々の貢献は、倫理的AI研究がデジタル分割によって最も不利な人々のニーズを満たすための道のりを提供する。
- 参考スコア(独自算出の注目度): 3.3946853660795884
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: For many of the 700 million illiterate people around the world, speech
recognition technology could provide a bridge to valuable information and
services. Yet, those most in need of this technology are often the most
underserved by it. In many countries, illiterate people tend to speak only
low-resource languages, for which the datasets necessary for speech technology
development are scarce. In this paper, we investigate the effectiveness of
unsupervised speech representation learning on noisy radio broadcasting
archives, which are abundant even in low-resource languages. We make three core
contributions. First, we release two datasets to the research community. The
first, West African Radio Corpus, contains 142 hours of audio in more than 10
languages with a labeled validation subset. The second, West African Virtual
Assistant Speech Recognition Corpus, consists of 10K labeled audio clips in
four languages. Next, we share West African wav2vec, a speech encoder trained
on the noisy radio corpus, and compare it with the baseline Facebook speech
encoder trained on six times more data of higher quality. We show that West
African wav2vec performs similarly to the baseline on a multilingual speech
recognition task, and significantly outperforms the baseline on a West African
language identification task. Finally, we share the first-ever speech
recognition models for Maninka, Pular and Susu, languages spoken by a combined
10 million people in over seven countries, including six where the majority of
the adult population is illiterate. Our contributions offer a path forward for
ethical AI research to serve the needs of those most disadvantaged by the
digital divide.
- Abstract(参考訳): 世界中の7億人の障害者にとって、音声認識技術は貴重な情報やサービスへの橋渡しとなるかもしれない。
しかし、この技術に最も必要とされているものは、しばしば最も控えめなものである。
多くの国では、文盲の人々は低リソース言語のみを話す傾向があり、音声技術開発に必要なデータセットは乏しい。
本稿では,低リソース言語においても豊富なノイズの多い無線放送アーカイブにおける教師なし音声表現学習の有効性について検討する。
主な貢献は3つあります。
まず、研究コミュニティに2つのデータセットをリリースします。
最初のWest African Radio Corpusは、ラベル付きバリデーションサブセットを持つ10言語以上で142時間のオーディオを含む。
第2の西アフリカバーチャルアシスタント音声認識コーパスは、4つの言語で10Kのラベル付き音声クリップで構成されている。
次に、ノイズの多い無線コーパスでトレーニングされた音声エンコーダであるWest African wav2vecを、高品質の6倍のデータでトレーニングされたベースラインのFacebook音声エンコーダと比較する。
We show that West African wav2vec performed as the baseline on a multilingual speech recognition task, and significantlyforming the baseline on a West African language Identification task。
最後に、マニンカ語、プラール語、スース語の音声認識モデルを共有する。マニンカ語、プラー語、スース語は、成人人口の大多数が読み書きできない6か国を含む7か国で合計1000万人が話す言語だ。
我々の貢献は、倫理的AI研究がデジタル分割によって最も不利な人々のニーズを満たすための道のりを提供する。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech [0.5330251011543498]
我々は,男性633人,女性633人を対象に,45時間以上の音声データを用いた。
私たちは85.44%の精度を記録しました。
論文 参考訳(メタデータ) (2024-04-18T10:17:20Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Brazilian Portuguese Speech Recognition Using Wav2vec 2.0 [0.26097841018267615]
本研究は,公開音声データのみを用いた公開音声認識システムの開発について述べる。
最終モデルは、単語誤り率11.95%(共通音声データセット)を示す。
これはブラジルポルトガル語の最もオープンな音声認識モデルよりも13%少ない。
論文 参考訳(メタデータ) (2021-07-23T18:54:39Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z) - Towards End-to-End Training of Automatic Speech Recognition for Nigerian
Pidgin [0.0]
ナイジェリアのピジンは西アフリカで最も人気のある言語の一つである。
我々はナイジェリアのピジンについて最初のパラレル(音声からテキスト)データを提示する。
また,この言語を用いた最初のエンドツーエンド音声認識システムを訓練した。
論文 参考訳(メタデータ) (2020-10-21T16:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。