論文の概要: The Deterministic plus Stochastic Model of the Residual Signal and its
Applications
- arxiv url: http://arxiv.org/abs/2001.01000v1
- Date: Sun, 29 Dec 2019 07:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 08:03:51.084285
- Title: The Deterministic plus Stochastic Model of the Residual Signal and its
Applications
- Title(参考訳): 残留信号の決定論的・確率的モデルとその応用
- Authors: Thomas Drugman, Thierry Dutoit
- Abstract要約: この原稿は残留信号の決定論的プラスモデル(DSM)を提示する。
次に,2分野の音声処理におけるDSMの適用性について検討した。
- 参考スコア(独自算出の注目度): 13.563526970105988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The modeling of speech production often relies on a source-filter approach.
Although methods parameterizing the filter have nowadays reached a certain
maturity, there is still a lot to be gained for several speech processing
applications in finding an appropriate excitation model. This manuscript
presents a Deterministic plus Stochastic Model (DSM) of the residual signal.
The DSM consists of two contributions acting in two distinct spectral bands
delimited by a maximum voiced frequency. Both components are extracted from an
analysis performed on a speaker-dependent dataset of pitch-synchronous residual
frames. The deterministic part models the low-frequency contents and arises
from an orthonormal decomposition of these frames. As for the stochastic
component, it is a high-frequency noise modulated both in time and frequency.
Some interesting phonetic and computational properties of the DSM are also
highlighted. The applicability of the DSM in two fields of speech processing is
then studied. First, it is shown that incorporating the DSM vocoder in
HMM-based speech synthesis enhances the delivered quality. The proposed
approach turns out to significantly outperform the traditional pulse excitation
and provides a quality equivalent to STRAIGHT. In a second application, the
potential of glottal signatures derived from the proposed DSM is investigated
for speaker identification purpose. Interestingly, these signatures are shown
to lead to better recognition rates than other glottal-based methods.
- Abstract(参考訳): 音声生成のモデル化は、しばしばソースフィルタアプローチに依存する。
近年, フィルタのパラメータ化手法は一定の成熟度に達しているが, 適切な励起モデルを見つけるためには, 音声処理の応用にはまだ多くのメリットがある。
この原稿は残留信号の決定論的+確率的モデル(DSM)を示す。
DSMは、最大発声周波数で区切られた2つの異なるスペクトル帯域で作用する2つのコントリビューションから構成される。
両成分は、ピッチ同期残差フレームの話者依存データセットで実行される分析から抽出される。
決定論的部分は低周波コンテンツをモデル化し、これらのフレームの正規直交分解から生じる。
確率成分については、時間と周波数の両方で変調される高周波ノイズである。
DSMの興味深い音声的および計算的性質も強調されている。
次に,2分野の音声処理におけるDSMの適用性について検討した。
まず,HMM音声合成にDSMボコーダを組み込むことで,納音品質が向上することを示した。
提案手法は従来のパルス励起を著しく上回っており、ストレートと同等の品質を提供する。
第2の応用として,提案したDSMから得られる声門信号の電位を話者識別のために検討した。
興味深いことに、これらのシグネチャは他のスロットタル法よりも認識率が高いことが示されている。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Dynamic Spectrum Mixer for Visual Recognition [17.180863898764194]
動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
論文 参考訳(メタデータ) (2023-09-13T04:51:15Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Maximum Voiced Frequency Estimation: Exploiting Amplitude and Phase
Spectra [22.675699190161417]
本稿では,振幅スペクトルと位相スペクトルの両方を利用したMVF推定手法を提案する。
位相は、音声信号の調和性に関する関連情報を伝達し、振幅スペクトルから得られる特徴と共同で使用できることが示されている。
提案手法は2つの最先端手法と比較し,主観的評価と主観的評価の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2020-05-31T13:40:46Z) - Audio-Visual Decision Fusion for WFST-based and seq2seq Models [3.2771898634434997]
雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる
提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。
提案手法は音響のみのWERよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-01-29T13:45:08Z) - A Deterministic plus Stochastic Model of the Residual Signal for
Improved Parametric Speech Synthesis [11.481208551940998]
残差に対する決定論的プラスモデル(DSM)の適応を提案する。
提案手法はHMMベース音声合成器に組み込まれている。
その結果,男女ともに有意な改善が認められた。
論文 参考訳(メタデータ) (2019-12-29T07:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。