論文の概要: IMaSC -- ICFOSS Malayalam Speech Corpus
- arxiv url: http://arxiv.org/abs/2211.12796v1
- Date: Wed, 23 Nov 2022 09:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 16:00:41.389112
- Title: IMaSC -- ICFOSS Malayalam Speech Corpus
- Title(参考訳): imasc -- icfoss malayalam音声コーパス
- Authors: Deepa P Gopinath, Thennal D K, Vrinda V Nair, Swaraj K S, Sachin G
- Abstract要約: 約50時間の音声を含むマラヤラム語テキストと音声コーパスであるIMaSCについて述べる。
8つのスピーカーと合計34,473のテキストオーディオペアを持つIMaSCは、他のすべてのパブリックな代替品よりも大きい。
以上の結果から,我々のモデルでは,従来の研究や公開モデルに比べて自然度が有意に向上し,平均世論スコアは4.50であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern text-to-speech (TTS) systems use deep learning to synthesize speech
increasingly approaching human quality, but they require a database of high
quality audio-text sentence pairs for training. Malayalam, the official
language of the Indian state of Kerala and spoken by 35+ million people, is a
low resource language in terms of available corpora for TTS systems. In this
paper, we present IMaSC, a Malayalam text and speech corpora containing
approximately 50 hours of recorded speech. With 8 speakers and a total of
34,473 text-audio pairs, IMaSC is larger than every other publicly available
alternative. We evaluated the database by using it to train TTS models for each
speaker based on a modern deep learning architecture. Via subjective
evaluation, we show that our models perform significantly better in terms of
naturalness compared to previous studies and publicly available models, with an
average mean opinion score of 4.50, indicating that the synthesized speech is
close to human quality.
- Abstract(参考訳): 現代のテキスト音声合成システム(TTS)は、人間の品質に近づきつつある音声を深層学習で合成するが、訓練には高品質な音声テキスト文ペアのデータベースが必要である。
インド・ケララ州の公用語であるマラヤラムは、3500万人以上の人々が話しており、TSシステムのコーパスとして利用できる低資源言語である。
本稿では,約50時間の音声を含むマラヤラム語テキストと音声コーパスであるIMaSCについて述べる。
8つのスピーカーと合計34,473のテキストオーディオペアを持つIMaSCは、他のすべてのパブリックな代替品よりも大きい。
我々は,最新のディープラーニングアーキテクチャに基づいて,話者毎のTSモデルをトレーニングするためにデータベースを評価した。
主観的評価により,我々のモデルは,従来の研究や公開モデルに比べて自然度が有意に向上し,平均世論スコアは4.50であり,合成された音声は人的品質に近いことを示す。
関連論文リスト
- SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Towards Building Text-To-Speech Systems for the Next Billion Users [18.290165216270452]
そこで我々は,ドラヴィダ語とインド・アーリア語に対する音響モデル,ボコーダ,補足的損失関数,訓練スケジュール,話者および言語多様性の選択について検討した。
我々は,13言語を対象としたTSモデルをトレーニングし,評価し,各言語における既存のモデルを大幅に改善するモデルを見出した。
論文 参考訳(メタデータ) (2022-11-17T13:59:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - RyanSpeech: A Corpus for Conversational Text-to-Speech Synthesis [3.6406488220483317]
RyanSpeechは、自動音声合成(TTS)システムの研究のための新しい音声コーパスである。
44.1kHzで録音されたプロの男性声優のスピーチの10時間以上が含まれている。
論文 参考訳(メタデータ) (2021-06-15T22:24:38Z) - Byakto Speech: Real-time long speech synthesis with convolutional neural
network: Transfer learning from English to Bangla [0.0]
Byaktaは、音声合成システムへの最初のオープンソースのディープラーニングベースのバイリンガルテキスト(バングラ語と英語)である。
TTSモデルの性能を評価するため,音声認識モデルに基づく自動スコアリング尺度も提案した。
音声品質評価のためのBangla音声合成モデルのためのテストベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-31T20:39:35Z) - KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset [4.542831770689362]
本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットについて紹介する。
このデータセットは、2人のプロの話者が話した約91時間の録音音声から成り立っている。
これは、アカデミックと産業の両方で、カザフスタンのテキスト音声アプリケーションを促進するために開発された、初めて公開された大規模なデータセットである。
論文 参考訳(メタデータ) (2021-04-17T05:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。