論文の概要: Cosine Scoring with Uncertainty for Neural Speaker Embedding
- arxiv url: http://arxiv.org/abs/2403.06404v1
- Date: Mon, 11 Mar 2024 03:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:19:41.471344
- Title: Cosine Scoring with Uncertainty for Neural Speaker Embedding
- Title(参考訳): ニューラルスピーカーの埋め込みにおける不確かさによるコサインスコーリング
- Authors: Qiongqiong Wang, Kong Aik Lee
- Abstract要約: 本稿では, フロントエンドを埋め込んだ話者の不確かさを推定し, コーシンスコアリングバックエンドに伝播する手法を提案する。
従来のコサイン類似性と比較して、EERとminDCFの平均減少率は8.5%と9.8%で改善された。
- 参考スコア(独自算出の注目度): 24.213914600143326
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Uncertainty modeling in speaker representation aims to learn the variability
present in speech utterances. While the conventional cosine-scoring is
computationally efficient and prevalent in speaker recognition, it lacks the
capability to handle uncertainty. To address this challenge, this paper
proposes an approach for estimating uncertainty at the speaker embedding
front-end and propagating it to the cosine scoring back-end. Experiments
conducted on the VoxCeleb and SITW datasets confirmed the efficacy of the
proposed method in handling uncertainty arising from embedding estimation. It
achieved improvement with 8.5% and 9.8% average reductions in EER and minDCF
compared to the conventional cosine similarity. It is also computationally
efficient in practice.
- Abstract(参考訳): 話者表現における不確かさのモデル化は,発話の変動を学習することを目的としている。
従来のcosine-scoringは、話者認識において計算効率が高く普及しているが、不確実性を扱う能力に欠ける。
この課題に対処するため,本論文では,フロントエンドを埋め込んだ話者の不確かさを推定し,コーズンスコアリングバックエンドに伝播する手法を提案する。
VoxCelebおよびSITWデータセットを用いて行った実験により,埋め込み推定による不確実性に対処する上で,提案手法の有効性が確認された。
従来のコサイン類似性と比較して、EERとminDCFの平均減少率は8.5%と9.8%であった。
実際に計算的にも効率的である。
関連論文リスト
- Confidence Intervals and Simultaneous Confidence Bands Based on Deep Learning [0.36832029288386137]
本手法は, 適用された最適化アルゴリズムに固有の雑音からデータの不確実性を正しく解き放つことのできる, 有効な非パラメトリックブートストラップ法である。
提案したアドホック法は、トレーニングプロセスに干渉することなく、ディープニューラルネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2024-06-20T05:51:37Z) - Rectified Iterative Disparity for Stereo Matching [2.8908326904081334]
コストボリュームに基づく不確実性不確実性推定(UEC)を提案する。
画像対から得られるコストボリュームの豊富な類似性情報に基づいて,提案したUCCは,計算コストの低い競合性能を実現することができる。
提案手法を組み合わせた高性能ステレオアーキテクチャDR Stereoを提案する。
論文 参考訳(メタデータ) (2024-06-16T13:47:40Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - dugMatting: Decomposed-Uncertainty-Guided Matting [83.71273621169404]
そこで本稿では, 明確に分解された不確かさを探索し, 効率よく効率よく改善する, 分解不確実性誘導型マッチングアルゴリズムを提案する。
提案したマッチングフレームワークは,シンプルで効率的なラベリングを用いて対話領域を決定する必要性を緩和する。
論文 参考訳(メタデータ) (2023-06-02T11:19:50Z) - Integrating Uncertainty into Neural Network-based Speech Enhancement [27.868722093985006]
時間周波数領域における監視されたマスキングアプローチは、ディープニューラルネットワークを使用して乗法マスクを推定し、クリーンな音声を抽出することを目的としている。
これにより、信頼性の保証や尺度を使わずに、各入力に対する単一の見積もりが導かれる。
クリーン音声推定における不確実性モデリングの利点について検討する。
論文 参考訳(メタデータ) (2023-05-15T15:55:12Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian
Mixture Models [19.442685015494316]
単一チャンネルのディープ音声強調手法は、その精度を測らずにクリーン音声を抽出するために単一の乗法マスクを推定することが多い。
本稿では,ニューラルネットワークによる音声強調におけるクリーン音声推定に伴う不確かさの定量化を提案する。
論文 参考訳(メタデータ) (2022-12-09T13:03:09Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。