論文の概要: Residual Excitation Skewness for Automatic Speech Polarity Detection
- arxiv url: http://arxiv.org/abs/2006.00525v1
- Date: Sun, 31 May 2020 13:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 13:09:27.078173
- Title: Residual Excitation Skewness for Automatic Speech Polarity Detection
- Title(参考訳): 音声自動極性検出のための残差励磁スキューネス
- Authors: Thomas Drugman
- Abstract要約: 2つの励起信号の歪度に基づく非常に単純なアルゴリズムを提案する。
この手法は10の音声コーパス(8545ファイル)に表示され、クリーンな条件下では0.06%の誤差率となる。
単純さによって計算負荷を著しく低減し、ノイズと残響環境の両方において強い強靭性を示すことが観察されている。
- 参考スコア(独自算出の注目度): 9.350099146904869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting the correct speech polarity is a necessary step prior to several
speech processing techniques. An error on its determination could have a
dramatic detrimental impact on their performance. As current systems have to
deal with increasing amounts of data stemming from multiple devices, the
automatic detection of speech polarity has become a crucial problem. For this
purpose, we here propose a very simple algorithm based on the skewness of two
excitation signals. The method is shown on 10 speech corpora (8545 files) to
lead to an error rate of only 0.06% in clean conditions and to clearly
outperform four state-of-the-art methods. Besides it significantly reduces the
computational load through its simplicity and is observed to exhibit the
strongest robustness in both noisy and reverberant environments.
- Abstract(参考訳): 正しい音声極性の検出は、複数の音声処理技術に先立って必要なステップである。
決定の誤りは、パフォーマンスに劇的な悪影響をもたらす可能性がある。
現在のシステムは、複数のデバイスから発生するデータ量の増加に対処しなければならないため、音声の極性の自動検出は重要な問題となっている。
そこで本研究では,2つの励起信号の歪度に基づく非常に単純なアルゴリズムを提案する。
この手法は10の音声コーパス(8545ファイル)に表示され、クリーンな条件下では0.06%の誤差率となり、4つの最先端手法よりも明らかに優れている。
さらに、単純さによって計算負荷を大幅に削減し、ノイズと残響環境の両方において強い強靭性を示す。
関連論文リスト
- MMSD-Net: Towards Multi-modal Stuttering Detection [9.257985820122999]
MMSD-Netは、スタブリング検出のための最初のマルチモーダルニューラルネットワークフレームワークである。
我々のモデルでは、既存の最先端ユニモーダルアプローチよりもF1スコアが2-17%向上している。
論文 参考訳(メタデータ) (2024-07-16T08:26:59Z) - Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment [0.14999444543328289]
本研究は, 発声音声における不一致の同定における最後のエンコーダ層の役割を明らかにするものである。
計算効率が良く、訓練のためのパラメータが83.7%少なくなり、提案されたアプローチは様々な方言や言語に適応できるようになった。
論文 参考訳(メタデータ) (2024-06-09T13:42:51Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition [26.77806246793544]
音声強調(SE)は、ASRの雑音を低減するためにフロントエンドとして導入されるが、重要な音声情報も抑制する。
エンドツーエンドノイズロスト音声認識(DPSL-ASR)のためのデュアルパス型学習手法を提案する。
実験の結果,提案手法はIFF-Netベースラインよりも10.6%,8.6%の相対単語誤り率(WER)の低減を実現している。
論文 参考訳(メタデータ) (2022-03-28T15:21:57Z) - Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition [18.83748866242237]
厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。
本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。
検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
論文 参考訳(メタデータ) (2022-02-17T09:17:58Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Efficient and robust certification of genuine multipartite entanglement
in noisy quantum error correction circuits [58.720142291102135]
実効多部絡み(GME)認証のための条件付き目撃手法を導入する。
線形な二分割数における絡み合いの検出は, 多数の測定値によって線形にスケールし, GMEの認証に十分であることを示す。
本手法は, 距離3の位相的カラーコードとフラグベースの耐故障バージョンにおける安定化作用素の雑音可読化に適用する。
論文 参考訳(メタデータ) (2020-10-06T18:00:07Z) - Oscillating Statistical Moments for Speech Polarity Detection [13.563526970105988]
音声の極性の逆転は、様々な音声処理技術の性能に劇的な有害な影響を及ぼす可能性がある。
本稿では,振動する統計モーメントに依存する新しい極性検出手法を提案する。
論文 参考訳(メタデータ) (2020-05-16T08:16:43Z) - Listen Attentively, and Spell Once: Whole Sentence Generation via a
Non-Autoregressive Architecture for Low-Latency Speech Recognition [66.47000813920619]
我々はLASOと呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。
非自己回帰性のため、LASOは他のトークンに依存することなくシーケンス内のテキストトークンを予測する。
我々は,中国における公開データセットAISHELL-1の実験を行った。
論文 参考訳(メタデータ) (2020-05-11T04:45:02Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。