論文の概要: Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages
- arxiv url: http://arxiv.org/abs/2306.04428v2
- Date: Tue, 13 Jun 2023 20:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:00:41.711225
- Title: Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages
- Title(参考訳): Zambezi Voice: ザンビア語のための多言語音声コーパス
- Authors: Claytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya
Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos
- Abstract要約: Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
- 参考スコア(独自算出の注目度): 20.25236081418051
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work introduces Zambezi Voice, an open-source multilingual speech
resource for Zambian languages. It contains two collections of datasets:
unlabelled audio recordings of radio news and talk shows programs (160 hours)
and labelled data (over 80 hours) consisting of read speech recorded from text
sourced from publicly available literature books. The dataset is created for
speech recognition but can be extended to multilingual speech processing
research for both supervised and unsupervised learning approaches. To our
knowledge, this is the first multilingual speech dataset created for Zambian
languages. We exploit pretraining and cross-lingual transfer learning by
finetuning the Wav2Vec2.0 large-scale multilingual pre-trained model to build
end-to-end (E2E) speech recognition models for our baseline models. The dataset
is released publicly under a Creative Commons BY-NC-ND 4.0 license and can be
accessed via https://github.com/unza-speech-lab/zambezi-voice .
- Abstract(参考訳): この研究はザンビア語のためのオープンソースの多言語音声リソースであるZambezi Voiceを紹介する。
ラジオニュースとトーク番組の音声録音(160時間以上)とラベル付きデータ(80時間以上)の2つのデータセットが含まれており、公開文学書から得られたテキストから記録された読み上げ音声で構成されている。
データセットは音声認識のために作成されるが、教師なしと教師なしの両方の学習アプローチで多言語音声処理の研究に拡張することができる。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
我々は,wav2vec2.0の大規模多言語事前学習モデルを用いて,ベースラインモデルのためのエンドツーエンド(e2e)音声認識モデルを構築することにより,事前学習と言語間伝達学習を利用する。
データセットはCreative Commons BY-NC-ND 4.0ライセンスで公開されており、https://github.com/unza-speech-lab/zambezi-voiceを通じてアクセスすることができる。
関連論文リスト
- Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Many-to-Many Spoken Language Translation via Unified Speech and Text
Representation Learning with Unit-to-Unit Translation [39.74625363642717]
自己教師型音声モデルから符号化された音声特徴の量子化表現である音声単位を用いた多言語音声の表現を行う。
そこで本研究では,多言語データに基づいて,ユニット・ツー・ユニット翻訳(UTUT)を目標としたエンコーダ・デコーダ構造モデルを訓練する。
UTUTを用いた1つの事前学習モデルは、音声音声翻訳(STS)、多言語テキスト音声合成(TTS)、テキスト音声翻訳(TTST)などの多言語音声およびテキスト関連タスクに利用できる。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Large vocabulary speech recognition for languages of Africa:
multilingual modeling and self-supervised learning [11.408563104045285]
アフリカで話されている2000以上の言語のうち、ほとんど誰も自動音声認識システムを提供していない。
我々はアフリカ語に対する大語彙音声認識の経路を提供する2つの手法の実験を行った。
論文 参考訳(メタデータ) (2022-08-05T09:54:19Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。