論文の概要: Shouted Speech Compensation for Speaker Verification Robust to Vocal
Effort Conditions
- arxiv url: http://arxiv.org/abs/2008.02487v1
- Date: Thu, 6 Aug 2020 07:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 08:04:41.695022
- Title: Shouted Speech Compensation for Speaker Verification Robust to Vocal
Effort Conditions
- Title(参考訳): 発声条件に頑健な話者照合のための発声音声補償
- Authors: Santi Prieto, Alfonso Ortega, Iv\'an L\'opez-Espejo, Eduardo Lleida
- Abstract要約: 本稿では,埋め込みの線形補償法について述べる。
話者検証において, 発声条件と正常条件のミスマッチを補うために, それらを適用した。
実験結果から,声道努力ミスマッチの存在下でのアプローチの適用により,最大13.8%の誤差率の相対的改善が得られた。
- 参考スコア(独自算出の注目度): 10.042047097101559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of speaker verification systems degrades when vocal effort
conditions between enrollment and test (e.g., shouted vs. normal speech) are
different. This is a potential situation in non-cooperative speaker
verification tasks. In this paper, we present a study on different methods for
linear compensation of embeddings making use of Gaussian mixture models to
cluster shouted and normal speech domains. These compensation techniques are
borrowed from the area of robustness for automatic speech recognition and, in
this work, we apply them to compensate the mismatch between shouted and normal
conditions in speaker verification. Before compensation, shouted condition is
automatically detected by means of logistic regression. The process is
computationally light and it is performed in the back-end of an x-vector
system. Experimental results show that applying the proposed approach in the
presence of vocal effort mismatch yields up to 13.8% equal error rate relative
improvement with respect to a system that applies neither shouted speech
detection nor compensation.
- Abstract(参考訳): 話者照合システムの性能は、登録と試験の間の音声の努力条件(例えば、叫び声と正常音声)が異なる場合に劣化する。
これは非協調話者検証作業における潜在的な状況である。
本稿では,ガウス混合モデルを用いて大声および正規音声領域をクラスタ化する組込みの線形補償法について検討する。
これらの補正手法は,音声認識における頑健性から借用され,本研究では,話者検証における発話条件と正常条件とのミスマッチを補償する。
補償の前に、発声条件はロジスティック回帰によって自動的に検出される。
このプロセスは計算量的に軽く、x-vectorシステムのバックエンドで実行される。
実験結果から, 発声音声検出や補償を適用できないシステムに対して, 発声努力ミスマッチの存在下で提案手法を適用すると, 13.8%の誤差率の相対的改善が得られることがわかった。
関連論文リスト
- Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - High-precision Voice Search Query Correction via Retrievable Speech-text
Embedings [13.4015768521113]
音声認識システムは、ノイズの多い音声、十分なトレーニングデータがないなど、様々な理由で、リコールに苦しむことがある。
従来の研究では、仮説テキストの潜在的、文脈に関連のある選択肢の巨大なデータベースから書き直し候補を検索することで、リコールを改善することができた。
一般発話においてWERを増大させることなく,文章が候補集合に現れる発話に対して,相対単語誤り率(WER)を6%削減することを示す。
論文 参考訳(メタデータ) (2024-01-08T20:59:56Z) - End-to-end Speech-to-Punctuated-Text Recognition [23.44236710364419]
句読点は、音声認識結果の可読性にとって重要である。
従来の自動音声認識システムは句読点を生成しない。
本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-07-07T08:58:01Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Attack on practical speaker verification system using universal
adversarial perturbations [20.38185341318529]
本研究は,提案する対人摂動を,相手が話しているときに別個の音源として演奏することにより,現実的な話者検証システムにより,相手を対象話者と誤認することを示す。
2段階のアルゴリズムが提案され、テキストに依存しない普遍的対向摂動を最適化し、認証テキスト認識にはほとんど影響を与えない。
論文 参考訳(メタデータ) (2021-05-19T09:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。