論文の概要: Speech Resources in the Tamasheq Language
- arxiv url: http://arxiv.org/abs/2201.05051v1
- Date: Thu, 13 Jan 2022 16:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:59:20.568387
- Title: Speech Resources in the Tamasheq Language
- Title(参考訳): タマシェク語における音声資源
- Authors: Marcely Zanon Boito, Fethi Bougares, Florentin Barbier, Souhir
Gahbiche, Lo\"ic Barrault, Mickael Rouvier, Yannick Est\`eve
- Abstract要約: 主にマリ語とニジェール語で話される言語であるTamasheqの2つのデータセットを提示する。
これらのデータはCreative Commons BY-NC-ND 3.0ライセンスで共有されている。
- 参考スコア(独自算出の注目度): 5.763310320023305
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we present two datasets for Tamasheq, a developing language
mainly spoken in Mali and Niger. These two datasets were made available for the
IWSLT 2022 low-resource speech translation track, and they consist of
collections of radio recordings from the Studio Kalangou (Niger) and Studio
Tamani (Mali) daily broadcast news. We share (i) a massive amount of unlabeled
audio data (671 hours) in five languages: French from Niger, Fulfulde, Hausa,
Tamasheq and Zarma, and (ii) a smaller parallel corpus of audio recordings (17
hours) in Tamasheq, with utterance-level translations in the French language.
All this data is shared under the Creative Commons BY-NC-ND 3.0 license. We
hope these resources will inspire the speech community to develop and benchmark
models using the Tamasheq language.
- Abstract(参考訳): 本稿では,mali と niger で主に使われている開発言語 tamasheq の2つのデータセットについて述べる。
これらの2つのデータセットは、IWSLT 2022低リソース音声翻訳トラックで利用可能であり、Studio Kalangou (Niger) とStudio Tamani (Mali) のラジオ録音のコレクションで構成されている。
私たちは
(i)ニジェール語、フルフルード語、ハウザ語、タマシェク語、ザルマ語及び5つの言語における膨大な無ラベルオーディオデータ(671時間)
(II) タマシェクでは, 音声録音の並列コーパスが17時間小さく, フランス語で発声レベルが翻訳された。
これらのデータはCreative Commons BY-NC-ND 3.0ライセンスで共有されている。
これらのリソースが、tamasheq言語を使ったモデルの開発とベンチマークモデルの開発を、音声コミュニティに促すことを願っている。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages [20.25236081418051]
Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
論文 参考訳(メタデータ) (2023-06-07T13:36:37Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - BibleTTS: a large, high-fidelity, multilingual, and uniquely African
speech corpus [7.050790497916012]
BibleTTSは、サハラ以南のアフリカで話されている10の言語のための、大規模で高品質でオープンな音声データセットである。
コーパスは最大86時間、スタジオ品質48kHzのシングルスピーカーを言語ごとに記録する。
論文 参考訳(メタデータ) (2022-07-07T19:35:43Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。