論文の概要: Detection of Glottal Closure Instants from Speech Signals: a
Quantitative Review
- arxiv url: http://arxiv.org/abs/2001.00473v1
- Date: Sat, 28 Dec 2019 14:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 13:03:01.621059
- Title: Detection of Glottal Closure Instants from Speech Signals: a
Quantitative Review
- Title(参考訳): 音声信号からの声門閉鎖インスタントの検出 : 定量的検討
- Authors: Thomas Drugman, Mark Thomas, Jon Gudnason, Patrick Naylor, Thierry
Dutoit
- Abstract要約: 最先端の5つのGCI検出アルゴリズムを6つのデータベースを用いて比較する。
これらの手法の有効性は, 可読性と精度の両面から, クリーン音声で評価される。
クリーン音声では, SEDREAMS と YAGA が識別率と精度の両面で最良であることを示す。
- 参考スコア(独自算出の注目度): 9.351195374919365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pseudo-periodicity of voiced speech can be exploited in several speech
processing applications. This requires however that the precise locations of
the Glottal Closure Instants (GCIs) are available. The focus of this paper is
the evaluation of automatic methods for the detection of GCIs directly from the
speech waveform. Five state-of-the-art GCI detection algorithms are compared
using six different databases with contemporaneous electroglottographic
recordings as ground truth, and containing many hours of speech by multiple
speakers. The five techniques compared are the Hilbert Envelope-based detection
(HE), the Zero Frequency Resonator-based method (ZFR), the Dynamic Programming
Phase Slope Algorithm (DYPSA), the Speech Event Detection using the Residual
Excitation And a Mean-based Signal (SEDREAMS) and the Yet Another GCI Algorithm
(YAGA). The efficacy of these methods is first evaluated on clean speech, both
in terms of reliabililty and accuracy. Their robustness to additive noise and
to reverberation is also assessed. A further contribution of the paper is the
evaluation of their performance on a concrete application of speech processing:
the causal-anticausal decomposition of speech. It is shown that for clean
speech, SEDREAMS and YAGA are the best performing techniques, both in terms of
identification rate and accuracy. ZFR and SEDREAMS also show a superior
robustness to additive noise and reverberation.
- Abstract(参考訳): 音声の擬似周期性は、複数の音声処理アプリケーションで利用することができる。
しかし、これはGCI(Glottal Closure Instants)の正確な位置が必要とされる。
本研究の目的は,音声波形から直接GCIを検出するための自動手法の評価である。
5つの最新のGCI検出アルゴリズムを、6つの異なるデータベースを用いて比較し、同時代の電気グロットグラフィー記録を地上の真実とし、複数の話者による発話時間を含む。
比較した5つのテクニックは、Hilbert Envelope-based Detection (HE), Zero Frequency Resonator-based method (ZFR), the Dynamic Programming Phase Slope Algorithm (DYPSA), the Speech Event Detection using the Residual Excitation And a Mean-based Signal (SEDREAMS) and the Yet Another GCI Algorithm (YAGA)である。
これらの手法の有効性は, 可読性と精度の両面から, クリーン音声で評価される。
加法雑音や残響に対する頑健性も評価される。
この論文のさらなる貢献は、音声処理の具体的応用におけるそれらの性能の評価である:音声の因果分解である。
クリーンな音声では,sedreamsとyagaが識別率と精度の両面で最高の演奏技術であることが示されている。
ZFRとSEDREAMSは付加雑音や残響に対して優れた強靭性を示す。
関連論文リスト
- Diffusion Conditional Expectation Model for Efficient and Robust Target
Speech Extraction [73.43534824551236]
ターゲット音声抽出(TSE)のための条件拡散予測モデル(DCEM)という効率的な生成手法を提案する。
ノイズとクリーンな条件の両方で、マルチとシングルスピーカーのシナリオを処理できる。
本手法は,従来の手法よりも侵入的指標と非侵入的指標の両方で優れていた。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques [11.97036509133719]
本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
論文 参考訳(メタデータ) (2020-05-24T08:13:47Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z) - Glottal Closure and Opening Instant Detection from Speech Signals [13.563526970105988]
本稿では,音声波形から直接GCI(Glottal Closure and Opening Instants)を検出する手法を提案する。
提案手法は,CMU ARCTICデータベース上のDYPSAアルゴリズムと比較する。
論文 参考訳(メタデータ) (2019-12-28T19:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。