論文の概要: Huqariq: A Multilingual Speech Corpus of Native Languages of Peru for
Speech Recognition
- arxiv url: http://arxiv.org/abs/2207.05498v1
- Date: Tue, 12 Jul 2022 12:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:55:58.032228
- Title: Huqariq: A Multilingual Speech Corpus of Native Languages of Peru for
Speech Recognition
- Title(参考訳): huqariq: ペルーの母国語による音声認識のための多言語音声コーパス
- Authors: Rodolfo Zevallos, Luis Camacho and Nelsi Melgarejo
- Abstract要約: フカーリク語はペルーの4つの母語を含む。
2022年の終わりまでに、ペルーの48の母国語のうち20の母国語に到達できると予想されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Huqariq corpus is a multilingual collection of speech from native
Peruvian languages. The transcribed corpus is intended for the research and
development of speech technologies to preserve endangered languages in Peru.
Huqariq is primarily designed for the development of automatic speech
recognition, language identification and text-to-speech tools. In order to
achieve corpus collection sustainably, we employ the crowdsourcing methodology.
Huqariq includes four native languages of Peru, and it is expected that by the
end of the year 2022, it can reach up to 20 native languages out of the 48
native languages in Peru. The corpus has 220 hours of transcribed audio
recorded by more than 500 volunteers, making it the largest speech corpus for
native languages in Peru. In order to verify the quality of the corpus, we
present speech recognition experiments using 220 hours of fully transcribed
audio.
- Abstract(参考訳): フカーリク・コーパス(huqariq corpus)は、ペルーの言語による多言語集である。
transcribedコーパスは、ペルーの絶滅危惧言語を保存するための音声技術の研究と開発を目的としている。
Huqariqは主に音声認識、言語識別、音声合成ツールの開発のために設計されている。
コーパス収集を持続的に実現するために,クラウドソーシング手法を用いる。
huqariqにはペルーの4つのネイティブ言語が含まれており、2022年末までには、ペルーの48のネイティブ言語のうち最大20のネイティブ言語に到達することが期待されている。
このコーパスは500人以上のボランティアが録音した220時間分の音声を録音しており、ペルーで最大の母語コーパスとなっている。
コーパスの品質を検証するために,220時間の完全書き起こし音声を用いた音声認識実験を行った。
関連論文リスト
- FeruzaSpeech: A 60 Hour Uzbek Read Speech Corpus with Punctuation, Casing, and Context [0.0]
本稿では,ウズベキスタン語の読み上げ音声コーパスであるFeruzaSpeechを紹介する。
FeruzaSpeechはキリル文字とラテン文字の両方で転写されている。
本稿では,FeruzaSpeechの統合によるCommonVoice 16.1のUzbekデータ,Uzbek Speech Corpusデータ,FeruzaSpeechデータに対する単語誤り率(WER)の増大について論じる。
論文 参考訳(メタデータ) (2024-09-23T03:07:30Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition
and Robust Speech-to-Text Translation [44.53711548080296]
我々は,多言語音声視覚コーパスであるMuAViCを紹介した。
完全に書き起こされ、6つの英訳と6つの英訳の方向をカバーしている。
この結果から,MuAViCは音声認識・翻訳モデルの構築に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-03-01T16:31:01Z) - SpeechMatrix: A Large-Scale Mined Corpus of Multilingual
Speech-to-Speech Translations [38.058120432870126]
SpeechMatrixは、音声から音声への翻訳の大規模多言語コーパスである。
136言語対の音声アライメントと、合計418万時間の音声を含む。
論文 参考訳(メタデータ) (2022-11-08T19:09:27Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。