論文の概要: Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages
- arxiv url: http://arxiv.org/abs/2306.04428v1
- Date: Wed, 7 Jun 2023 13:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:21:46.428490
- Title: Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages
- Title(参考訳): Zambezi Voice: ザンビア語のための多言語音声コーパス
- Authors: Claytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya
Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos
- Abstract要約: Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。
ラジオニュースとトーク番組の未収録音声記録とラベル付きデータという2つのデータセットのコレクションを含んでいる。
データセットは音声認識のために作成されるが、多言語音声処理の研究に拡張することができる。
- 参考スコア(独自算出の注目度): 20.25236081418051
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work introduces Zambezi Voice, an open-source multilingual speech
resource for Zambian languages. It contains two collections of datasets:
unlabelled audio recordings of radio news and talk shows programs (160 hours)
and labelled data (over 80 hours) consisting of read speech recorded from text
sourced from publicly available literature books. The dataset is created for
speech recognition but can be extended to multilingual speech processing
research for both supervised and unsupervised learning approaches. To our
knowledge, this is the first multilingual speech dataset created for Zambian
languages. We exploit pretraining and cross-lingual transfer learning by
finetuning the Wav2Vec2.0 large-scale multilingual pre-trained model to build
end-to-end (E2E) speech recognition models for our baseline models. The dataset
is released publicly under a Creative Commons BY-NC-ND 4.0 license and can be
accessed through the project repository. See
https://github.com/unza-speech-lab/zambezi-voice
- Abstract(参考訳): この研究はザンビア語のためのオープンソースの多言語音声リソースであるZambezi Voiceを紹介する。
ラジオニュースとトーク番組の音声録音(160時間以上)とラベル付きデータ(80時間以上)の2つのデータセットが含まれており、公開文学書から得られたテキストから記録された読み上げ音声で構成されている。
データセットは音声認識のために作成されるが、教師なしと教師なしの両方の学習アプローチで多言語音声処理の研究に拡張することができる。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
我々は,wav2vec2.0の大規模多言語事前学習モデルを用いて,ベースラインモデルのためのエンドツーエンド(e2e)音声認識モデルを構築することにより,事前学習と言語間伝達学習を利用する。
データセットはCreative Commons BY-NC-ND 4.0ライセンスで公開されており、プロジェクトリポジトリからアクセスすることができる。
https://github.com/unza-speech-lab/zambezi-voiceを参照。
関連論文リスト
- Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,タイ語を用いた未保存言語における既存の音声言語モデルの性能について検討する。
多言語バックボーン上に構築されているにもかかわらず、音声言語モデルは言語間の創発能力を示すものではない。
本稿では,音声理解と音声指示追従機能を単一統一モデルに統合する。
論文 参考訳(メタデータ) (2024-09-17T09:04:03Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Large vocabulary speech recognition for languages of Africa:
multilingual modeling and self-supervised learning [11.408563104045285]
アフリカで話されている2000以上の言語のうち、ほとんど誰も自動音声認識システムを提供していない。
我々はアフリカ語に対する大語彙音声認識の経路を提供する2つの手法の実験を行った。
論文 参考訳(メタデータ) (2022-08-05T09:54:19Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。