論文の概要: Maximum Voiced Frequency Estimation: Exploiting Amplitude and Phase
Spectra
- arxiv url: http://arxiv.org/abs/2006.00521v1
- Date: Sun, 31 May 2020 13:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 13:09:39.657515
- Title: Maximum Voiced Frequency Estimation: Exploiting Amplitude and Phase
Spectra
- Title(参考訳): 最大音声周波数推定:爆発振幅と位相スペクトル
- Authors: Thomas Drugman, Yannis Stylianou
- Abstract要約: 本稿では,振幅スペクトルと位相スペクトルの両方を利用したMVF推定手法を提案する。
位相は、音声信号の調和性に関する関連情報を伝達し、振幅スペクトルから得られる特徴と共同で使用できることが示されている。
提案手法は2つの最先端手法と比較し,主観的評価と主観的評価の両方において優れた性能を示す。
- 参考スコア(独自算出の注目度): 22.675699190161417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximum Voiced Frequency (MVF) is used in various speech models as the
spectral boundary separating periodic and aperiodic components during the
production of voiced sounds. Recent studies have shown that its proper
estimation and modeling enhance the quality of statistical parametric speech
synthesizers. Contrastingly, these same methods of MVF estimation have been
reported to degrade the performance of singing voice synthesizers. This paper
proposes a new approach for MVF estimation which exploits both amplitude and
phase spectra. It is shown that phase conveys relevant information about the
harmonicity of the voice signal, and that it can be jointly used with features
derived from the amplitude spectrum. This information is further integrated
into a maximum likelihood criterion which provides a decision about the MVF
estimate. The proposed technique is compared to two state-of-the-art methods,
and shows a superior performance in both objective and subjective evaluations.
Perceptual tests indicate a drastic improvement in high-pitched voices.
- Abstract(参考訳): 最大発声周波数(MVF)は、発声音の生成中に周期成分と周期成分を分離するスペクトル境界として様々な音声モデルで用いられる。
最近の研究では、適切な推定とモデリングが統計的パラメトリック音声合成器の品質を高めることが示されている。
対照的に、これらのMVF推定手法は歌唱音声合成器の性能を低下させるために報告されている。
本稿では,振幅スペクトルと位相スペクトルの両方を利用したMVF推定手法を提案する。
位相は、音声信号の調和性に関する関連情報を伝達し、振幅スペクトルから得られる特徴と共同で使用できることが示されている。
この情報は、MVF推定に関する決定を提供する最大可能性基準にさらに統合される。
提案手法は2つの最先端手法と比較し,客観的評価と主観評価の両方において優れた性能を示す。
知覚検査は、ハイピッチ音声の劇的な改善を示す。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z) - The Deterministic plus Stochastic Model of the Residual Signal and its
Applications [13.563526970105988]
この原稿は残留信号の決定論的プラスモデル(DSM)を提示する。
次に,2分野の音声処理におけるDSMの適用性について検討した。
論文 参考訳(メタデータ) (2019-12-29T07:52:37Z) - A Deterministic plus Stochastic Model of the Residual Signal for
Improved Parametric Speech Synthesis [11.481208551940998]
残差に対する決定論的プラスモデル(DSM)の適応を提案する。
提案手法はHMMベース音声合成器に組み込まれている。
その結果,男女ともに有意な改善が認められた。
論文 参考訳(メタデータ) (2019-12-29T07:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。