論文の概要: A Comparative Study of Glottal Source Estimation Techniques
- arxiv url: http://arxiv.org/abs/2001.00840v1
- Date: Sat, 28 Dec 2019 20:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 13:02:36.167358
- Title: A Comparative Study of Glottal Source Estimation Techniques
- Title(参考訳): 声門源推定法の比較検討
- Authors: Thomas Drugman, Baris Bozkurt, Thierry Dutoit
- Abstract要約: ソーストラクション分解(英: Source-tract decomposition, glottal flow Estimation)は、音声処理の基本的な問題の一つである。
本研究では,下肢流量推定の最先端手法を3つ比較した。
- 参考スコア(独自算出の注目度): 11.481208551940998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source-tract decomposition (or glottal flow estimation) is one of the basic
problems of speech processing. For this, several techniques have been proposed
in the literature. However studies comparing different approaches are almost
nonexistent. Besides, experiments have been systematically performed either on
synthetic speech or on sustained vowels. In this study we compare three of the
main representative state-of-the-art methods of glottal flow estimation:
closed-phase inverse filtering, iterative and adaptive inverse filtering, and
mixed-phase decomposition. These techniques are first submitted to an objective
assessment test on synthetic speech signals. Their sensitivity to various
factors affecting the estimation quality, as well as their robustness to noise
are studied. In a second experiment, their ability to label voice quality
(tensed, modal, soft) is studied on a large corpus of real connected speech. It
is shown that changes of voice quality are reflected by significant
modifications in glottal feature distributions. Techniques based on the
mixed-phase decomposition and on a closed-phase inverse filtering process turn
out to give the best results on both clean synthetic and real speech signals.
On the other hand, iterative and adaptive inverse filtering is recommended in
noisy environments for its high robustness.
- Abstract(参考訳): 音源抽出分解(または声門流量推定)は音声処理の基本的な問題の一つである。
このため、文献にいくつかの技法が提案されている。
しかし、異なるアプローチを比較する研究はほとんど存在しない。
さらに、合成音声または持続母音で、系統的に実験が実施されている。
本研究では, 閉相逆フィルタ, 反復型および適応型逆フィルタ, 混合相分解の3つの代表的フロー推定法を比較した。
これらの手法はまず,合成音声信号の客観的評価試験に提案される。
推定品質に影響する様々な要因に対する感度と雑音に対するロバスト性について検討した。
第2の実験では、実際の接続音声の大きなコーパス上で、音声品質(テンソル、モーダル、ソフト)をラベル付けする能力について研究した。
声質の変化は声門特徴分布の大幅な変化によって反映されることが示された。
混合位相分解法と閉相逆フィルタリング法に基づく手法は, 合成信号と実音声信号の両方において最良の結果を与えることができた。
一方,高ロバスト性のため,雑音環境下では反復的かつ適応的な逆フィルタリングが推奨される。
関連論文リスト
- Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection [22.413475757518682]
声質に敏感な音響特徴埋め込みを生成するためのディープラーニングフレームワークを提案する。
対照的な損失は、分類損失と組み合わせて、ディープラーニングモデルを共同で訓練する。
実験結果から,本手法は高いインコーパスとクロスコーパスの分類精度を実現することが示された。
論文 参考訳(メタデータ) (2022-11-17T19:34:59Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Investigations on Audiovisual Emotion Recognition in Noisy Conditions [43.40644186593322]
本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。
その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
論文 参考訳(メタデータ) (2021-03-02T17:45:16Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Parametric Representation for Singing Voice Synthesis: a Comparative
Evaluation [10.37199090634032]
まず,統計的パラメトリック合成に適した4つの既存手法に対して比較主観評価を行う。
ハイピッチ音声で発生するアーティファクトについて論じ,それを克服するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-07T13:06:30Z) - Maximum Voiced Frequency Estimation: Exploiting Amplitude and Phase
Spectra [22.675699190161417]
本稿では,振幅スペクトルと位相スペクトルの両方を利用したMVF推定手法を提案する。
位相は、音声信号の調和性に関する関連情報を伝達し、振幅スペクトルから得られる特徴と共同で使用できることが示されている。
提案手法は2つの最先端手法と比較し,主観的評価と主観的評価の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2020-05-31T13:40:46Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。