論文の概要: Optimizing Multi-Taper Features for Deep Speaker Verification
- arxiv url: http://arxiv.org/abs/2110.10983v1
- Date: Thu, 21 Oct 2021 08:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 06:44:04.687694
- Title: Optimizing Multi-Taper Features for Deep Speaker Verification
- Title(参考訳): 深部話者照合のためのマルチテーパ特徴の最適化
- Authors: Xuechen Liu, Md Sahidullah, Tomi Kinnunen
- Abstract要約: ASVタスクのために訓練されたディープニューラルネットワークと協調してマルチタスク推定器を最適化することを提案する。
SITWコーパスの最大誤差率25.8%をスタティックタッパー上での誤差率で向上させることで,本手法はリークと分散のバランスの取れたレベルを維持するのに役立てる。
- 参考スコア(独自算出の注目度): 21.237143465298505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-taper estimators provide low-variance power spectrum estimates that can
be used in place of the windowed discrete Fourier transform (DFT) to extract
speech features such as mel-frequency cepstral coefficients (MFCCs). Even if
past work has reported promising automatic speaker verification (ASV) results
with Gaussian mixture model-based classifiers, the performance of multi-taper
MFCCs with deep ASV systems remains an open question. Instead of a static-taper
design, we propose to optimize the multi-taper estimator jointly with a deep
neural network trained for ASV tasks. With a maximum improvement on the SITW
corpus of 25.8% in terms of equal error rate over the static-taper, our method
helps preserve a balanced level of leakage and variance, providing more
robustness.
- Abstract(参考訳): マルチタスク推定器は、メル周波数ケプストラム係数(MFCC)などの音声特徴を抽出するために、ウィンドウ化された離散フーリエ変換(DFT)の代わりに使用できる低分散パワースペクトル推定を提供する。
過去の研究がガウス混合モデルに基づく分類器による有望な自動話者検証(ASV)結果を報告したとしても、深いASVシステムを備えたマルチテーパMFCCの性能は未解決のままである。
静的テーパ設計ではなく,asvタスク用にトレーニングされたディープニューラルネットワークと共同でマルチテーパ推定器を最適化することを提案する。
SITWコーパスの最大誤差率25.8%をスタティックタッパー上での等速誤差率で改善することにより,リークと分散のバランスを保ち,ロバスト性を高める。
関連論文リスト
- Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。
ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Outlier-Insensitive Kalman Filtering Using NUV Priors [24.413595920205907]
実際には、観測は外れ値によって破損し、カルマンフィルタ(KF)の性能を著しく損なう。
本研究では、各電位外乱を未知の分散確率変数(NUV)としてモデル化し、外乱に敏感なKFを提案する。
予測最大化(EM)と変動ロバスト性(AM)の両方を用いて、NUVs分散をオンラインで推定する。
論文 参考訳(メタデータ) (2022-10-12T11:00:13Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Tuning-free multi-coil compressed sensing MRI with Parallel Variable
Density Approximate Message Passing (P-VDAMP) [2.624902795082451]
並列可変密度近似メッセージパッシング(P-VDAMP)アルゴリズムを提案する。
状態の進化は、Stein's Unbiased Risk Estimate (SURE) を用いてスパースパラメータを自動的に調整する。
提案手法は, 最適に調整したスパース重み付けを施したFISTAと同様の再現品質と収束時間を有することがわかった。
論文 参考訳(メタデータ) (2022-03-08T16:11:41Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Probabilistic electric load forecasting through Bayesian Mixture Density
Networks [70.50488907591463]
確率的負荷予測(PLF)は、スマートエネルギーグリッドの効率的な管理に必要な拡張ツールチェーンの重要なコンポーネントです。
ベイジアン混合密度ネットワークを枠とした新しいPLFアプローチを提案する。
後方分布の信頼性と計算にスケーラブルな推定を行うため,平均場変動推定と深層アンサンブルを統合した。
論文 参考訳(メタデータ) (2020-12-23T16:21:34Z) - Unbiased Gradient Estimation for Variational Auto-Encoders using Coupled
Markov Chains [34.77971292478243]
変分オートエンコーダ(VAE)は、オートエンコーダのようなアーキテクチャで2つのニューラルネットワークを持つ、潜伏変数モデルである。
ログ型勾配の偏りのない推定器を導入することにより,VAEのトレーニング手法を開発する。
偏りのない推定器を装着したVAEは予測性能が向上することを示した。
論文 参考訳(メタデータ) (2020-10-05T08:11:55Z) - A Comparative Re-Assessment of Feature Extractors for Deep Speaker
Embeddings [18.684888457998284]
本稿では,VoxCelebおよびSITWデータセット上で14個の特徴抽出器を広範囲に再評価する。
以上の結果から,スペクトルセントロイド,グループ遅延関数,統合雑音抑圧などの技術が,深層話者埋め込み抽出のためのMFCCに代わる有望な代替手段となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-30T07:55:58Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。