論文の概要: Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances
- arxiv url: http://arxiv.org/abs/2002.06033v1
- Date: Fri, 14 Feb 2020 13:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 03:55:19.474275
- Title: Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances
- Title(参考訳): 短発話における遠距離話者認識のための深部話者埋め込み
- Authors: Aleksei Gusev, Vladimir Volokhov, Tseren Andzhukaev, Sergey Novoselov,
Galina Lavrentyeva, Marina Volkova, Alice Gazizullina, Andrey Shulipa, Artem
Gorlanov, Anastasia Avdeeva, Artem Ivanov, Alexander Kozlov, Timur Pekhovsky,
Yuri Matveev
- Abstract要約: 深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 53.063441357826484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker recognition systems based on deep speaker embeddings have achieved
significant performance in controlled conditions according to the results
obtained for early NIST SRE (Speaker Recognition Evaluation) datasets. From the
practical point of view, taking into account the increased interest in virtual
assistants (such as Amazon Alexa, Google Home, AppleSiri, etc.), speaker
verification on short utterances in uncontrolled noisy environment conditions
is one of the most challenging and highly demanded tasks. This paper presents
approaches aimed to achieve two goals: a) improve the quality of far-field
speaker verification systems in the presence of environmental noise,
reverberation and b) reduce the system qualitydegradation for short utterances.
For these purposes, we considered deep neural network architectures based on
TDNN (TimeDelay Neural Network) and ResNet (Residual Neural Network) blocks. We
experimented with state-of-the-art embedding extractors and their training
procedures. Obtained results confirm that ResNet architectures outperform the
standard x-vector approach in terms of speaker verification quality for both
long-duration and short-duration utterances. We also investigate the impact of
speech activity detector, different scoring models, adaptation and score
normalization techniques. The experimental results are presented for publicly
available data and verification protocols for the VoxCeleb1, VoxCeleb2, and
VOiCES datasets.
- Abstract(参考訳): 深層話者埋め込みに基づく話者認識システムは,初期のNIST SRE(Speaker Recognition Evaluation)データセットで得られた結果に基づいて,制御条件における顕著な性能を実現している。
現実的な観点では、バーチャルアシスタント(Amazon Alexa、Google Home、AppleSiriなど)への関心が高まっていることを考慮すると、制御不能な雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,2つの目標を達成するためのアプローチを提案する。
a)環境騒音、残響及び残響の存在下での遠距離話者認証システムの品質向上
b)短い発話におけるシステム品質劣化の低減。
これらの目的で,TDNN(TimeDelay Neural Network)ブロックとResNet(Residual Neural Network)ブロックに基づくディープニューラルネットワークアーキテクチャを検討した。
最先端の埋め込み抽出器とその訓練手順を実験した。
得られた結果から, ResNet アーキテクチャは, 長調・短調両方の話者検証品質において, 標準的な x-vector 手法よりも優れていたことが確認された。
また,音声活動検出装置,異なるスコアリングモデル,適応およびスコア正規化手法の影響についても検討した。
実験結果は、VoxCeleb1、VoxCeleb2、VOiCESデータセットの公開データおよび検証プロトコルに対して提示される。
関連論文リスト
- Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Deep Neural Networks for Automatic Speaker Recognition Do Not Learn
Supra-Segmental Temporal Features [2.724035499453558]
本稿では,話者認識のための最先端ニューラルネットワークの性能が,SSTのモデル化によってどの程度説明できるかを定量化するための新しいテストを提案し,適用する。
話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。
論文 参考訳(メタデータ) (2023-11-01T12:45:31Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - SpecRNet: Towards Faster and More Accessible Audio DeepFake Detection [0.4511923587827302]
SpecRNetは、高速な推論時間と低い計算要求を特徴とするニューラルネットワークアーキテクチャである。
我々のベンチマークは、オーディオサンプルを処理するのに最大40%の時間を要するSpecRNetがLCNNアーキテクチャに匹敵するパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2022-10-12T11:36:14Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。