論文の概要: Multi-Scale Spectrogram Modelling for Neural Text-to-Speech
- arxiv url: http://arxiv.org/abs/2106.15649v1
- Date: Tue, 29 Jun 2021 18:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:16:58.228234
- Title: Multi-Scale Spectrogram Modelling for Neural Text-to-Speech
- Title(参考訳): ニューラルテキスト音声合成のためのマルチスケールスペクトログラムモデリング
- Authors: Ammar Abbas, Bajibabu Bollepalli, Alexis Moinet, Arnaud Joly, Penny
Karanasou, Peter Makarov, Simon Slangens, Sri Karlapati, Thomas Drugman
- Abstract要約: 本稿では, 音声合成のためのマルチスケール・スペクトログラム(MSS)モデリング手法を提案する。
我々は、Word-level MSSとSentence-level MSSと呼ばれる2種類のMSSの詳細を述べる。
- 参考スコア(独自算出の注目度): 19.42517284981061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel Multi-Scale Spectrogram (MSS) modelling approach to
synthesise speech with an improved coarse and fine-grained prosody. We present
a generic multi-scale spectrogram prediction mechanism where the system first
predicts coarser scale mel-spectrograms that capture the suprasegmental
information in speech, and later uses these coarser scale mel-spectrograms to
predict finer scale mel-spectrograms capturing fine-grained prosody.
We present details for two specific versions of MSS called Word-level MSS and
Sentence-level MSS where the scales in our system are motivated by the
linguistic units. The Word-level MSS models word, phoneme, and frame-level
spectrograms while Sentence-level MSS models sentence-level spectrogram in
addition.
Subjective evaluations show that Word-level MSS performs statistically
significantly better compared to the baseline on two voices.
- Abstract(参考訳): 本稿では, 音声合成のためのマルチスケール・スペクトログラム(MSS)モデリング手法を提案する。
そこで本研究では,まず,音声における超微視的情報を取り込む粗視的メルスペクトログラムを予測し,その後,この粗視的メルスペクトログラムを用いて細視的メルスペクトログラムを推定する汎用的マルチスケール・スペクトログラム予測機構を提案する。
本稿では,言語単位をベースとした2種類のMSS(Word-level MSS)とSentence-level MSS(Sentence-level MSS)について述べる。
WordレベルMSSはワード、音素、フレームレベルスペクトログラムを、SentenceレベルMSSは文レベルスペクトログラムをモデル化する。
主観評価の結果,単語レベルのMSSは2声のベースラインに比べて統計的に有意に優れていた。
関連論文リスト
- On combining acoustic and modulation spectrograms in an attention
LSTM-based system for speech intelligibility level classification [0.0]
本稿では,音声の了解度予測のためのアテンション機構を備えたLSTMネットワークに基づく非侵入システムを提案する。
LSTMフレームワークにフレームごとの音響ログメルと変調スペクトログラムを組み合わせるための2つの異なる戦略について検討した。
提案手法は, 難易度が異なる変形性音声を含むUA-Speechデータベースを用いて評価した。
論文 参考訳(メタデータ) (2024-02-05T10:26:28Z) - SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition [9.853451215277346]
自己教師付き階層表現(SSHR)を利用してMMSモデルを微調整する新しい手法を提案する。
我々は,2つの多言語データセットであるCommon VoiceとML-SUPERBについてSSHRを評価し,その実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-09-29T02:35:36Z) - Towards Robust FastSpeech 2 by Modelling Residual Multimodality [4.4904382374090765]
FastSpeech 2に基づく最先端の非自己回帰型音声合成モデルは、高忠実度と自然な音声を効率的に合成することができる。
表現型音声データセットにおける特徴的音声歪みを観察する。
TVC-GMMはスペクトログラムの滑らかさを低減し、特に表現的データセットの知覚音質を改善する。
論文 参考訳(メタデータ) (2023-06-02T11:03:26Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z) - Language Through a Prism: A Spectral Approach for Multiscale Language
Representations [30.224517199646993]
信号処理は、スケールをまたいだ構造を分離するための自然な枠組みを提供することを示す。
入力を通したニューロンの活性化にスペクトルフィルタを適用し、音声タグ付けの一部でよく機能するフィルタ埋め込みを生成する。
また、スペクトルフィルタを用いて異なるニューロンを拘束し、異なるスケールで構造をモデル化する訓練モデルのためのプリズム層を提案する。
論文 参考訳(メタデータ) (2020-11-09T23:17:43Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。