論文の概要: A Deep-Bayesian Framework for Adaptive Speech Duration Modification
- arxiv url: http://arxiv.org/abs/2107.04973v1
- Date: Sun, 11 Jul 2021 05:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 04:59:47.957352
- Title: A Deep-Bayesian Framework for Adaptive Speech Duration Modification
- Title(参考訳): 適応的音声持続時間修正のためのディープベイズフレームワーク
- Authors: Ravi Shankar and Archana Venkataraman
- Abstract要約: 我々はベイズフレームワークを用いて、入力とターゲット発話のフレームをリンクする潜在注意マップを定義する。
マスク付き畳み込みエンコーダ・デコーダネットワークをトレーニングし、このアテンションマップを平均絶対誤差損失関数のバージョンで生成する。
提案手法は,最先端のボコーダに匹敵する高い品質の音声を生成できることを示す。
- 参考スコア(独自算出の注目度): 20.99099283004413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the first method to adaptively modify the duration of a given
speech signal. Our approach uses a Bayesian framework to define a latent
attention map that links frames of the input and target utterances. We train a
masked convolutional encoder-decoder network to produce this attention map via
a stochastic version of the mean absolute error loss function; our model also
predicts the length of the target speech signal using the encoder embeddings.
The predicted length determines the number of steps for the decoder operation.
During inference, we generate the attention map as a proxy for the similarity
matrix between the given input speech and an unknown target speech signal.
Using this similarity matrix, we compute a warping path of alignment between
the two signals. Our experiments demonstrate that this adaptive framework
produces similar results to dynamic time warping, which relies on a known
target signal, on both voice conversion and emotion conversion tasks. We also
show that our technique results in a high quality of generated speech that is
on par with state-of-the-art vocoders.
- Abstract(参考訳): 与えられた音声信号の持続時間を適応的に修正する最初の方法を提案する。
提案手法はベイズフレームワークを用いて,入力とターゲット発話のフレームをリンクする潜在注意マップを定義する。
我々は、マスク付き畳み込みエンコーダデコーダネットワークをトレーニングし、このアテンションマップを平均絶対誤差損失関数の確率バージョンで生成し、またエンコーダ埋め込みを用いてターゲット音声信号の長さを予測する。
予測された長さはデコーダ操作のステップ数を決定する。
推定中、与えられた入力音声と未知の目標音声信号との類似度行列の代理としてアテンションマップを生成する。
この類似性行列を用いて、2つの信号間のアライメントの歪み経路を計算する。
この適応的フレームワークは、音声変換と感情変換の両方のタスクにおいて、既知の目標信号に依存する動的時間ワープと類似した結果が得られることを示す。
また,本手法は,最先端のボコーダに匹敵する高い品質の音声を生成することを示す。
関連論文リスト
- Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for
End-to-End Speech Systems [78.5097679815944]
本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。
まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。
第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。
第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
論文 参考訳(メタデータ) (2021-03-15T01:11:13Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network [18.275646344620387]
本稿では,連鎖型エンコーダ・デコーダ・予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
提案手法は,感情変換の正しさと合成音声の質の両方において,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-25T13:59:22Z) - Attention and Encoder-Decoder based models for transforming articulatory
movements at different speaking rates [60.02121449986413]
LSTMを用いたエンコーダデコーダアーキテクチャを提案する。
変換された調音運動の振幅を原音と異なる速度で解析する。
AstNetは,既存の変換手法よりも音節運動の持続時間と範囲をモデル化できる。
論文 参考訳(メタデータ) (2020-06-04T19:33:26Z) - Speech-to-Singing Conversion based on Boundary Equilibrium GAN [42.739822506085694]
本稿では,音声信号のスペクトルを歌声に変換するためのGANモデルについて検討する。
提案モデルは,既存の非対向学習ベースラインよりも自然性が高い歌声を生成する。
論文 参考訳(メタデータ) (2020-05-28T08:18:02Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。