論文の概要: A Comparative Re-Assessment of Feature Extractors for Deep Speaker
Embeddings
- arxiv url: http://arxiv.org/abs/2007.15283v1
- Date: Thu, 30 Jul 2020 07:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:59:43.094489
- Title: A Comparative Re-Assessment of Feature Extractors for Deep Speaker
Embeddings
- Title(参考訳): 深部話者埋め込みのための特徴抽出器の比較評価
- Authors: Xuechen Liu, Md Sahidullah, Tomi Kinnunen
- Abstract要約: 本稿では,VoxCelebおよびSITWデータセット上で14個の特徴抽出器を広範囲に再評価する。
以上の結果から,スペクトルセントロイド,グループ遅延関数,統合雑音抑圧などの技術が,深層話者埋め込み抽出のためのMFCCに代わる有望な代替手段となることが明らかとなった。
- 参考スコア(独自算出の注目度): 18.684888457998284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern automatic speaker verification relies largely on deep neural networks
(DNNs) trained on mel-frequency cepstral coefficient (MFCC) features. While
there are alternative feature extraction methods based on phase, prosody and
long-term temporal operations, they have not been extensively studied with
DNN-based methods. We aim to fill this gap by providing extensive re-assessment
of 14 feature extractors on VoxCeleb and SITW datasets. Our findings reveal
that features equipped with techniques such as spectral centroids, group delay
function, and integrated noise suppression provide promising alternatives to
MFCCs for deep speaker embeddings extraction. Experimental results demonstrate
up to 16.3\% (VoxCeleb) and 25.1\% (SITW) relative decrease in equal error rate
(EER) to the baseline.
- Abstract(参考訳): 現代の自動話者検証は、メル周波数ケプストラム係数(MFCC)の特徴に基づいて訓練されたディープニューラルネットワーク(DNN)に大きく依存している。
位相,韻律,長期の時間的操作に基づく代替的特徴抽出法は存在するが,DNNに基づく手法では広く研究されていない。
我々は,VoxCelebおよびSITWデータセット上に14個の特徴抽出器を広範囲に再評価することにより,このギャップを埋めることを目指している。
以上の結果から,スペクトルセンタロイド,グループ遅延関数,統合雑音抑圧などの手法が組み合わさった特徴は,mfccsの話者埋め込み抽出に有望な代替手段を提供することがわかった。
実験結果は16.3\%(VoxCeleb)と25.1\%(SITW)の相対的な誤差率(EER)の低下を示す。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Enhancing dysarthria speech feature representation with empirical mode
decomposition and Walsh-Hadamard transform [8.032273183441921]
We propose a feature enhancement for dysarthria speech called WHFEMD。
実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。
論文 参考訳(メタデータ) (2023-12-30T13:25:26Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning [41.44950556040058]
本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
論文 参考訳(メタデータ) (2022-07-10T21:19:36Z) - Optimizing Multi-Taper Features for Deep Speaker Verification [21.237143465298505]
ASVタスクのために訓練されたディープニューラルネットワークと協調してマルチタスク推定器を最適化することを提案する。
SITWコーパスの最大誤差率25.8%をスタティックタッパー上での誤差率で向上させることで,本手法はリークと分散のバランスの取れたレベルを維持するのに役立てる。
論文 参考訳(メタデータ) (2021-10-21T08:56:11Z) - Optimized Power Normalized Cepstral Coefficients towards Robust Deep
Speaker Verification [21.237143465298505]
チャネルエネルギー正規化を導入し,PNCCの再検討と最適化を行う。
DNNに基づく話者検証システムによる実験結果から,ベースラインPNCCよりも大幅に向上したことが示された。
論文 参考訳(メタデータ) (2021-09-24T16:26:12Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。