論文の概要: VoiceBank-2023: A Multi-Speaker Mandarin Speech Corpus for Constructing
Personalized TTS Systems for the Speech Impaired
- arxiv url: http://arxiv.org/abs/2308.14763v1
- Date: Sun, 27 Aug 2023 07:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 17:17:33.701808
- Title: VoiceBank-2023: A Multi-Speaker Mandarin Speech Corpus for Constructing
Personalized TTS Systems for the Speech Impaired
- Title(参考訳): VoiceBank-2023:パーソナライズTTSシステム構築のためのマルチ話者マンダリン音声コーパス
- Authors: Jia-Jyu Su, Pang-Chen Liao, Yen-Ting Lin, Wu-Hao Li, Guan-Ting Liou,
Cheng-Che Kao, Wei-Cheng Chen, Jen-Chieh Chiang, Wen-Yang Chang, Pin-Han Lin,
Chen-Yu Chiang
- Abstract要約: 台湾は2020年にVoiceBankingプロジェクトを開始し、筋萎縮性側索硬化症患者にパーソナライズされたマンダリンTSシステムを提供するための完全なサービスセットを構築した。
本稿では, コーパス設計, コーパス記録, データ浄化, コーパスの補正, および, 開発したパーソナライズ TTS システムの評価について報告する。
- 参考スコア(独自算出の注目度): 2.0769413971386723
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Services of personalized TTS systems for the Mandarin-speaking speech
impaired are rarely mentioned. Taiwan started the VoiceBanking project in 2020,
aiming to build a complete set of services to deliver personalized Mandarin TTS
systems to amyotrophic lateral sclerosis patients. This paper reports the
corpus design, corpus recording, data purging and correction for the corpus,
and evaluations of the developed personalized TTS systems, for the VoiceBanking
project. The developed corpus is named after the VoiceBank-2023 speech corpus
because of its release year. The corpus contains 29.78 hours of utterances with
prompts of short paragraphs and common phrases spoken by 111 native Mandarin
speakers. The corpus is labeled with information about gender, degree of speech
impairment, types of users, transcription, SNRs, and speaking rates. The
VoiceBank-2023 is available by request for non-commercial use and welcomes all
parties to join the VoiceBanking project to improve the services for the speech
impaired.
- Abstract(参考訳): マンダリン話者の発話障害に対する個別のTTSシステムの利用はめったに言及されていない。
台湾は2020年にVoiceBankingプロジェクトを開始し、筋萎縮性側索硬化症患者にパーソナライズされたMandarin TTSシステムを提供するための完全なサービスの構築を目指している。
本稿では,音声バンクプロジェクトにおいて,コーパスの設計,コーパス記録,コーパスのデータのパーシングと補正,および開発したパーソナライズttsシステムの評価について報告する。
開発されたコーパスは、VoiceBank-2023音声コーパスから名づけられた。
コーパスには29.78時間の発声があり、短い段落のプロンプトと111人のマンダリン話者が話す一般的なフレーズがある。
コーパスには、性別、言語障害の程度、ユーザの種類、転写、SNR、発話率などの情報が含まれている。
voicebank-2023は非商用利用の要求によって利用可能であり、すべての当事者がvoicebankingプロジェクトに参加し、音声障害のサービスを改善することを歓迎している。
関連論文リスト
- FLEURS-R: A Restored Multilingual Speech Corpus for Generation Tasks [27.894172151026044]
FLEURS-Rは、音声コーパスの普遍表現に関するFew-shot Learning Evaluationの音声復元応用版である。
FLEURS-Rの目的は、より多くの言語で音声技術を進歩させ、テキスト音声を含む研究を触媒することである。
論文 参考訳(メタデータ) (2024-08-12T15:28:51Z) - Advancing Speech Translation: A Corpus of Mandarin-English Conversational Telephone Speech [4.924682400857061]
本稿では,CallHome Mandarin 中国語データとHKUST Mandarin 中国語音声データの123時間サブセットに対する英訳について紹介する。
マンダリン英会話音声訓練セットに汎用翻訳モデルを微調整することで,目標領域BLEUを8点以上改善できることを実証する。
論文 参考訳(メタデータ) (2024-03-25T21:08:06Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - BASPRO: a balanced script producer for speech corpus collection based on
the genetic algorithm [29.701197643765674]
音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語文の音素バランスとリッチなセットを自動的に構築できるBAlanced Script Producer (BASPRO)システムを提案する。
論文 参考訳(メタデータ) (2022-12-11T02:05:30Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - RyanSpeech: A Corpus for Conversational Text-to-Speech Synthesis [3.6406488220483317]
RyanSpeechは、自動音声合成(TTS)システムの研究のための新しい音声コーパスである。
44.1kHzで録音されたプロの男性声優のスピーチの10時間以上が含まれている。
論文 参考訳(メタデータ) (2021-06-15T22:24:38Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。