論文の概要: Data augmentation versus noise compensation for x- vector speaker
recognition systems in noisy environments
- arxiv url: http://arxiv.org/abs/2006.15903v1
- Date: Mon, 29 Jun 2020 09:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 15:07:32.222299
- Title: Data augmentation versus noise compensation for x- vector speaker
recognition systems in noisy environments
- Title(参考訳): 雑音環境におけるx-ベクトル話者認識システムにおけるデータ拡張と雑音補償
- Authors: Mohammad Mohammadamini (LIA), Driss Matrouf (LIA)
- Abstract要約: 明示的な雑音補償は2つのプロトコルでEERの相対的な利得とほぼ等しいことを示す。
例えば、Protocol2では、21%から66%がEERをデノナイズ技術で改善しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosion of available speech data and new speaker modeling methods based
on deep neural networks (DNN) have given the ability to develop more robust
speaker recognition systems. Among DNN speaker modelling techniques, x-vector
system has shown a degree of robustness in noisy environments. Previous studies
suggest that by increasing the number of speakers in the training data and
using data augmentation more robust speaker recognition systems are achievable
in noisy environments. In this work, we want to know if explicit noise
compensation techniques continue to be effective despite the general noise
robustness of these systems. For this study, we will use two different x-vector
networks: the first one is trained on Voxceleb1 (Protocol1), and the second one
is trained on Voxceleb1+Voxveleb2 (Protocol2). We propose to add a denoising
x-vector subsystem before scoring. Experimental results show that, the x-vector
system used in Protocol2 is more robust than the other one used Protocol1.
Despite this observation we will show that explicit noise compensation gives
almost the same EER relative gain in both protocols. For example, in the
Protocol2 we have 21% to 66% improvement of EER with denoising techniques.
- Abstract(参考訳): 利用可能な音声データの爆発とディープニューラルネットワーク(DNN)に基づく新しい話者モデリング手法により、より堅牢な話者認識システムの開発が可能になった。
dnn話者モデル手法のうち、x-vectorシステムは雑音環境におけるロバスト性を示す。
これまでの研究では、トレーニングデータ内の話者数を増やし、より堅牢な音声認識システムを使用することで、ノイズの多い環境では実現可能であることが示唆されている。
本研究では,これらのシステムの一般的な雑音頑健性に拘わらず,明示的な雑音補償技術が引き続き有効であるかを確認したい。
本研究では、2つの異なるx-vectorネットワークを使用する。1つはvoxceleb1(protocol1)で、もう1つはvoxceleb1+voxveleb2(protocol2)でトレーニングされる。
スコアの前にx-vectorサブシステムを追加することを提案する。
実験の結果、protocol2で使用されるx-vectorシステムは、他のprotocol1よりも堅牢であることが示されている。
この観察にもかかわらず、明示的なノイズ補償が両方のプロトコルでほぼ同じEER相対的な利得を与えることを示す。
例えば、Protocol2では、21%から66%がEERをデノーミング技術で改善しています。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Combination of Deep Speaker Embeddings for Diarisation [9.053645441056256]
本稿では、異なるNN成分を持つシステムから派生した複数の相補的なd-ベクターの組み合わせにより、c-ベクター法を提案する。
本稿では,ニューラルネットワークを用いた単一パス話者ダイアリゼーションパイプラインを提案する。
挑戦的なAMIとNIST RT05データセットについて実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2020-10-22T20:16:36Z) - Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes [36.63589873242547]
マルチスピーカ音声合成は,複数の話者の声を単一モデルでモデル化する手法である。
ディープガウス過程(DGP)と潜在変数モデル(DGPLVM)を用いた多話者音声合成のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T02:03:27Z) - DNN Speaker Tracking with Embeddings [0.0]
埋め込み型話者追跡手法を提案する。
我々の設計は、典型的な話者検証PLDAを模倣した畳み込みニューラルネットワークに基づいている。
ベースラインシステムを話者追跡と類似させるため、非ターゲット話者を録音に追加した。
論文 参考訳(メタデータ) (2020-07-13T18:40:14Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。