論文の概要: Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques
- arxiv url: http://arxiv.org/abs/2005.11682v1
- Date: Sun, 24 May 2020 08:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:49:27.886611
- Title: Glottal source estimation robustness: A comparison of sensitivity of
voice source estimation techniques
- Title(参考訳): 声門音源推定のロバスト性:声門音源推定手法の感度の比較
- Authors: Thomas Drugman, Thomas Dubuisson, Alexis Moinet, Nicolas D'Alessandro,
Thierry Dutoit
- Abstract要約: 本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
- 参考スコア(独自算出の注目度): 11.97036509133719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of estimating the voice source directly from
speech waveforms. A novel principle based on Anticausality Dominated Regions
(ACDR) is used to estimate the glottal open phase. This technique is compared
to two other state-of-the-art well-known methods, namely the Zeros of the
Z-Transform (ZZT) and the Iterative Adaptive Inverse Filtering (IAIF)
algorithms. Decomposition quality is assessed on synthetic signals through two
objective measures: the spectral distortion and a glottal formant determination
rate. Technique robustness is tested by analyzing the influence of noise and
Glottal Closure Instant (GCI) location errors. Besides impacts of the
fundamental frequency and the first formant on the performance are evaluated.
Our proposed approach shows significant improvement in robustness, which could
be of a great interest when decomposing real speech.
- Abstract(参考訳): 本稿では,音声波形から直接音源を推定する問題に対処する。
ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。
この手法は、z変換(zzt)の零点と反復適応逆フィルタリング(iaif)アルゴリズムという、他の2つの最先端の手法と比較される。
合成信号の分解品質は, スペクトル歪みとフロッタルホルマント決定率の2つの客観的尺度を用いて評価した。
ノイズとGCI(Glottal Closure Instant)位置誤差の影響を解析し,ロバスト性を検証した。
基本周波数と第1のフォルマントが性能に与える影響も評価する。
提案手法は頑健性が著しく向上しており,実際の発話を分解する場合に非常に興味をそそられる。
関連論文リスト
- Quantifying Noise of Dynamic Vision Sensor [49.665407116447454]
動的視覚センサ(DVS)は、大量のバックグラウンドアクティビティ(BA)ノイズによって特徴付けられる。
標準的な画像処理技術を用いて,ノイズとクリーン化センサ信号とを区別することは困難である。
Detrended Fluctuation Analysis (DFA) から得られたBAノイズを特徴付ける新しい手法が提案されている。
論文 参考訳(メタデータ) (2024-04-02T13:43:08Z) - Enhancing dysarthria speech feature representation with empirical mode
decomposition and Walsh-Hadamard transform [8.032273183441921]
We propose a feature enhancement for dysarthria speech called WHFEMD。
実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。
論文 参考訳(メタデータ) (2023-12-30T13:25:26Z) - Partial Identification with Noisy Covariates: A Robust Optimization
Approach [94.10051154390237]
観測データセットからの因果推論は、しばしば共変量の測定と調整に依存する。
このロバストな最適化手法により、広範囲な因果調整法を拡張し、部分的同定を行うことができることを示す。
合成および実データセット全体で、このアプローチは既存の手法よりも高いカバレッジ確率でATEバウンダリを提供する。
論文 参考訳(メタデータ) (2022-02-22T04:24:26Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。
従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。
我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2020-10-22T00:02:02Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - A Comparative Study of Glottal Source Estimation Techniques [11.481208551940998]
ソーストラクション分解(英: Source-tract decomposition, glottal flow Estimation)は、音声処理の基本的な問題の一つである。
本研究では,下肢流量推定の最先端手法を3つ比較した。
論文 参考訳(メタデータ) (2019-12-28T20:40:08Z) - Detection of Glottal Closure Instants from Speech Signals: a
Quantitative Review [9.351195374919365]
最先端の5つのGCI検出アルゴリズムを6つのデータベースを用いて比較する。
これらの手法の有効性は, 可読性と精度の両面から, クリーン音声で評価される。
クリーン音声では, SEDREAMS と YAGA が識別率と精度の両面で最良であることを示す。
論文 参考訳(メタデータ) (2019-12-28T14:12:16Z) - Joint Robust Voicing Detection and Pitch Estimation Based on Residual
Harmonics [23.523461173865737]
提案した基準は、ピッチ推定だけでなく、音声の発声区間を決定するためにも用いられる。
この手法は特に添加音に強いことが示され、悪条件の大幅な改善につながった。
論文 参考訳(メタデータ) (2019-12-28T13:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。