Fugu-MT 論文翻訳(概要): Optimizing Multi-Taper Features for Deep Speaker Verification

論文の概要: Optimizing Multi-Taper Features for Deep Speaker Verification

arxiv url: http://arxiv.org/abs/2110.10983v1
Date: Thu, 21 Oct 2021 08:56:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-23 06:44:04.687694
Title: Optimizing Multi-Taper Features for Deep Speaker Verification
Title（参考訳）: 深部話者照合のためのマルチテーパ特徴の最適化
Authors: Xuechen Liu, Md Sahidullah, Tomi Kinnunen
Abstract要約: ASVタスクのために訓練されたディープニューラルネットワークと協調してマルチタスク推定器を最適化することを提案する。 SITWコーパスの最大誤差率25.8%をスタティックタッパー上での誤差率で向上させることで,本手法はリークと分散のバランスの取れたレベルを維持するのに役立てる。
参考スコア（独自算出の注目度）: 21.237143465298505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-taper estimators provide low-variance power spectrum estimates that can be used in place of the windowed discrete Fourier transform (DFT) to extract speech features such as mel-frequency cepstral coefficients (MFCCs). Even if past work has reported promising automatic speaker verification (ASV) results with Gaussian mixture model-based classifiers, the performance of multi-taper MFCCs with deep ASV systems remains an open question. Instead of a static-taper design, we propose to optimize the multi-taper estimator jointly with a deep neural network trained for ASV tasks. With a maximum improvement on the SITW corpus of 25.8% in terms of equal error rate over the static-taper, our method helps preserve a balanced level of leakage and variance, providing more robustness.
Abstract（参考訳）: マルチタスク推定器は、メル周波数ケプストラム係数(MFCC)などの音声特徴を抽出するために、ウィンドウ化された離散フーリエ変換(DFT)の代わりに使用できる低分散パワースペクトル推定を提供する。過去の研究がガウス混合モデルに基づく分類器による有望な自動話者検証(ASV)結果を報告したとしても、深いASVシステムを備えたマルチテーパMFCCの性能は未解決のままである。静的テーパ設計ではなく,asvタスク用にトレーニングされたディープニューラルネットワークと共同でマルチテーパ推定器を最適化することを提案する。 SITWコーパスの最大誤差率25.8%をスタティックタッパー上での等速誤差率で改善することにより,リークと分散のバランスを保ち,ロバスト性を高める。

関連論文リスト

FMDConv: Fast Multi-Attention Dynamic Convolution via Speed-Accuracy Trade-off [12.900580256269155]
本稿では,FMDConv(Fast Multi-Attention Dynamic Convolution)を提案する。 CIFAR-10、CIFAR-100、ImageNetの実験では、FMDConvはResNet-18では最大49.8%、ResNet-50では42.2%の計算コストを削減している。
論文参考訳（メタデータ） (2025-03-21T20:23:32Z)
Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。 OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文参考訳（メタデータ） (2025-01-06T21:16:51Z)
Multi-QuAD: Multi-Level Quality-Adaptive Dynamic Network for Reliable Multimodal Classification [57.08108545219043]
既存の信頼性の高いマルチモーダル分類手法では、データ品質のロバストな推定ができない。 textitMulti-level Quality-Adaptive Dynamic multimodal network (Multi-QuAD) と呼ばれる信頼性の高い分類のための新しいフレームワークを提案する。 4つのデータセットで行った実験により、Multi-QuADは分類性能と信頼性において最先端の手法を大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-12-19T03:26:51Z)
Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文参考訳（メタデータ） (2024-05-26T12:25:09Z)
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。 DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文参考訳（メタデータ） (2023-10-18T17:07:05Z)
Outlier-Insensitive Kalman Filtering Using NUV Priors [24.413595920205907]
実際には、観測は外れ値によって破損し、カルマンフィルタ(KF)の性能を著しく損なう。本研究では、各電位外乱を未知の分散確率変数(NUV)としてモデル化し、外乱に敏感なKFを提案する。予測最大化(EM)と変動ロバスト性(AM)の両方を用いて、NUVs分散をオンラインで推定する。
論文参考訳（メタデータ） (2022-10-12T11:00:13Z)
FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。 3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文参考訳（メタデータ） (2022-03-24T07:26:29Z)
Tuning-free multi-coil compressed sensing MRI with Parallel Variable Density Approximate Message Passing (P-VDAMP) [2.624902795082451]
並列可変密度近似メッセージパッシング(P-VDAMP)アルゴリズムを提案する。状態の進化は、Stein's Unbiased Risk Estimate (SURE) を用いてスパースパラメータを自動的に調整する。提案手法は, 最適に調整したスパース重み付けを施したFISTAと同様の再現品質と収束時間を有することがわかった。
論文参考訳（メタデータ） (2022-03-08T16:11:41Z)
Sampling-free Variational Inference for Neural Networks with Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文参考訳（メタデータ） (2021-03-15T16:16:18Z)
Probabilistic electric load forecasting through Bayesian Mixture Density Networks [70.50488907591463]
確率的負荷予測(PLF)は、スマートエネルギーグリッドの効率的な管理に必要な拡張ツールチェーンの重要なコンポーネントです。ベイジアン混合密度ネットワークを枠とした新しいPLFアプローチを提案する。後方分布の信頼性と計算にスケーラブルな推定を行うため,平均場変動推定と深層アンサンブルを統合した。
論文参考訳（メタデータ） (2020-12-23T16:21:34Z)
Unbiased Gradient Estimation for Variational Auto-Encoders using Coupled Markov Chains [34.77971292478243]
変分オートエンコーダ(VAE)は、オートエンコーダのようなアーキテクチャで2つのニューラルネットワークを持つ、潜伏変数モデルである。ログ型勾配の偏りのない推定器を導入することにより,VAEのトレーニング手法を開発する。偏りのない推定器を装着したVAEは予測性能が向上することを示した。
論文参考訳（メタデータ） (2020-10-05T08:11:55Z)
A Comparative Re-Assessment of Feature Extractors for Deep Speaker Embeddings [18.684888457998284]
本稿では,VoxCelebおよびSITWデータセット上で14個の特徴抽出器を広範囲に再評価する。以上の結果から,スペクトルセントロイド,グループ遅延関数,統合雑音抑圧などの技術が,深層話者埋め込み抽出のためのMFCCに代わる有望な代替手段となることが明らかとなった。
論文参考訳（メタデータ） (2020-07-30T07:55:58Z)
Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。 LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文参考訳（メタデータ） (2020-02-12T18:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。