論文の概要: Optimized Power Normalized Cepstral Coefficients towards Robust Deep
Speaker Verification
- arxiv url: http://arxiv.org/abs/2109.12058v1
- Date: Fri, 24 Sep 2021 16:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 17:41:37.894154
- Title: Optimized Power Normalized Cepstral Coefficients towards Robust Deep
Speaker Verification
- Title(参考訳): ロバスト深層話者検証に向けた最適パワー正規化ケプストラム係数
- Authors: Xuechen Liu, Md Sahidullah, Tomi Kinnunen
- Abstract要約: チャネルエネルギー正規化を導入し,PNCCの再検討と最適化を行う。
DNNに基づく話者検証システムによる実験結果から,ベースラインPNCCよりも大幅に向上したことが示された。
- 参考スコア(独自算出の注目度): 21.237143465298505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: After their introduction to robust speech recognition, power normalized
cepstral coefficient (PNCC) features were successfully adopted to other tasks,
including speaker verification. However, as a feature extractor with long-term
operations on the power spectrogram, its temporal processing and amplitude
scaling steps dedicated on environmental compensation may be redundant.
Further, they might suppress intrinsic speaker variations that are useful for
speaker verification based on deep neural networks (DNN). Therefore, in this
study, we revisit and optimize PNCCs by ablating its medium-time processor and
by introducing channel energy normalization. Experimental results with a
DNN-based speaker verification system indicate substantial improvement over
baseline PNCCs on both in-domain and cross-domain scenarios, reflected by
relatively 5.8% and 61.2% maximum lower equal error rate on VoxCeleb1 and
VoxMovies, respectively.
- Abstract(参考訳): 頑健な音声認識の導入後、パワー正規化ケプストラム係数(pncc)機能は話者照合を含む他のタスクにうまく適用された。
しかし、パワースペクトログラムを長期操作する特徴抽出器として、その時間的処理と環境補償に特化した振幅スケーリングステップは冗長である可能性がある。
さらに、深層ニューラルネットワーク(dnn)に基づく話者検証に有用な内在的な話者変動を抑制する可能性がある。
そこで本研究では,中間時間プロセッサのアブレーションとチャネルエネルギー正規化の導入により,pnccを再検討し,最適化する。
DNNベースの話者検証システムによる実験結果から,VoxCeleb1とVoxMoviesでは,比較的5.8%と61.2%の誤差率で,ドメイン内シナリオとクロスドメインシナリオの両方において,ベースライン PNCC を大幅に改善したことが示唆された。
関連論文リスト
- Power-Efficient Indoor Localization Using Adaptive Channel-aware
Ultra-wideband DL-TDOA [7.306334571814026]
本稿では,低消費電力チャネル対応動的周波数DL-TDOAレンジリングアルゴリズムの提案と実装を行う。
畳み込みニューラルネットワーク(CNN)、ダイナミックレンジング周波数制御モジュール、IMUセンサベースのレンジングフィルタに基づくNLOS確率予測器を備える。
論文 参考訳(メタデータ) (2024-02-16T09:04:04Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - A neural network-supported two-stage algorithm for lightweight
dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。
このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文 参考訳(メタデータ) (2022-04-06T11:08:28Z) - Investigation of Different Calibration Methods for Deep Speaker
Embedding based Verification Systems [66.61691401921296]
本稿では, ディープスピーカ埋込抽出器のスコアキャリブレーション法について検討する。
この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。
論文 参考訳(メタデータ) (2022-03-28T21:22:22Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - A Comparative Re-Assessment of Feature Extractors for Deep Speaker
Embeddings [18.684888457998284]
本稿では,VoxCelebおよびSITWデータセット上で14個の特徴抽出器を広範囲に再評価する。
以上の結果から,スペクトルセントロイド,グループ遅延関数,統合雑音抑圧などの技術が,深層話者埋め込み抽出のためのMFCCに代わる有望な代替手段となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-30T07:55:58Z) - Boosting Objective Scores of a Speech Enhancement Model by MetricGAN
Post-processing [18.19158404358494]
Transformerアーキテクチャは、多くの異なる自然言語処理アプリケーションにおいて、リカレントニューラルネットワークよりも優れた能力を示している。
本研究は音声強調作業に改良型トランスフォーマーを適用した。
論文 参考訳(メタデータ) (2020-06-18T06:22:09Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。