論文の概要: End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network
- arxiv url: http://arxiv.org/abs/2004.09347v3
- Date: Mon, 5 Apr 2021 09:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:34:23.661717
- Title: End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network
- Title(参考訳): 変圧器ネットワークを用いたエンド・ツー・エンド音声変換
- Authors: Abhishek Niranjan, Mukesh Sharma, Sai Bharath Chandra Gutha, M Ali
Basha Shaik
- Abstract要約: シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
- 参考スコア(独自算出の注目度): 0.8399688944263843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine recognition of an atypical speech like whispered speech, is a
challenging task. We introduce whisper-to-natural-speech conversion using
sequence-to-sequence approach by proposing enhanced transformer architecture,
which uses both parallel and non-parallel data. We investigate different
features like Mel frequency cepstral coefficients and smoothed spectral
features. The proposed networks are trained end-to-end using supervised
approach for feature-to-feature transformation. Further, we also investigate
the effectiveness of embedded auxillary decoder used after N encoder
sub-layers, trained with the frame-level objective function for identifying
source phoneme labels. We show results on opensource wTIMIT and CHAINS datasets
by measuring word error rate using end-to-end ASR and also BLEU scores for the
generated speech. Alternatively, we also propose a novel method to measure
spectral shape of it by measuring formant distributions w.r.t. reference
speech, as formant divergence metric. We have found whisper-to-natural
converted speech formants probability distribution is similar to the
groundtruth distribution. To the authors' best knowledge, this is the first
time enhanced transformer has been proposed, both with and without auxiliary
decoder for whisper-to-natural-speech conversion and vice versa.
- Abstract(参考訳): ささやき声のような非定型的な音声の機械学習は、難しい課題である。
本稿では,並列データと非並列データの両方を用いた拡張トランスフォーマアーキテクチャを提案する。
本研究ではメル周波数ケプストラム係数や平滑化スペクトル特性などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師付きアプローチを用いてエンドツーエンドで訓練される。
さらに,nエンコーダサブレイヤの後に使用される組込みオーキラリーデコーダの有効性についても検討し,音素ラベル同定のためのフレームレベル客観関数を用いて検討した。
エンドツーエンドのASRとBLEUスコアを用いた単語誤り率の測定により,オープンソースのwTIMITおよびCHAINSデータセットに結果を示す。
また,ホルマント分布w.r.t.参照音声をフォルマント発散量として測定し,スペクトル形状を測定する新しい手法を提案する。
自然に変換された音声フォルマント確率分布は基底分布と類似していることがわかった。
著者らの知る限りでは、ウィスパー・トゥ・ナチュラル・音声変換のための補助デコーダと、その逆の双方で拡張トランスフォーマーが提案されているのはこれが初めてである。
関連論文リスト
- Style Description based Text-to-Speech with Conditional Prosodic Layer
Normalization based Diffusion GAN [17.876323494898536]
本稿では,4段階以内の音声サンプルを生成するための入力として,スタイル記述とコンテンツテキストに基づく高忠実度音声を生成するための拡散GANに基づくアプローチ(韻律Diff-TTS)を提案する。
提案手法の有効性を多話者LibriTTSおよびPromptSpeechデータセットに示す。
論文 参考訳(メタデータ) (2023-10-27T14:28:41Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - A Deep-Bayesian Framework for Adaptive Speech Duration Modification [20.99099283004413]
我々はベイズフレームワークを用いて、入力とターゲット発話のフレームをリンクする潜在注意マップを定義する。
マスク付き畳み込みエンコーダ・デコーダネットワークをトレーニングし、このアテンションマップを平均絶対誤差損失関数のバージョンで生成する。
提案手法は,最先端のボコーダに匹敵する高い品質の音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-07-11T05:53:07Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network [18.275646344620387]
本稿では,連鎖型エンコーダ・デコーダ・予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
提案手法は,感情変換の正しさと合成音声の質の両方において,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-25T13:59:22Z) - Learning to Count Words in Fluent Speech enables Online Speech
Recognition [10.74796391075403]
本稿では,変換器を用いたオンライン音声認識システムであるTarisを紹介する。
LRS2、LibriSpeech、Aishell-1データセットで実施された実験では、オンラインシステムは5セグメントの動的アルゴリズム遅延を持つ場合、オフラインシステムと同等に動作することが示された。
論文 参考訳(メタデータ) (2020-06-08T20:49:39Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Vocoder-free End-to-End Voice Conversion with Transformer Network [5.5792083698526405]
メル周波数フィルタバンク(MFB)に基づく手法は,MFBが特徴量が少ないため,生スペクトルと比較して学習音声の利点がある。
生のスペクトルと位相のみを用いて、明瞭な発音で異なるスタイルの音声を生成することができる。
本稿では,トランスネットワークを用いたヴォコーダフリーのエンドツーエンド音声変換手法を提案する。
論文 参考訳(メタデータ) (2020-02-05T06:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。