論文の概要: Cosine Scoring with Uncertainty for Neural Speaker Embedding
- arxiv url: http://arxiv.org/abs/2403.06404v1
- Date: Mon, 11 Mar 2024 03:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:19:41.471344
- Title: Cosine Scoring with Uncertainty for Neural Speaker Embedding
- Title(参考訳): ニューラルスピーカーの埋め込みにおける不確かさによるコサインスコーリング
- Authors: Qiongqiong Wang, Kong Aik Lee
- Abstract要約: 本稿では, フロントエンドを埋め込んだ話者の不確かさを推定し, コーシンスコアリングバックエンドに伝播する手法を提案する。
従来のコサイン類似性と比較して、EERとminDCFの平均減少率は8.5%と9.8%で改善された。
- 参考スコア(独自算出の注目度): 24.213914600143326
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Uncertainty modeling in speaker representation aims to learn the variability
present in speech utterances. While the conventional cosine-scoring is
computationally efficient and prevalent in speaker recognition, it lacks the
capability to handle uncertainty. To address this challenge, this paper
proposes an approach for estimating uncertainty at the speaker embedding
front-end and propagating it to the cosine scoring back-end. Experiments
conducted on the VoxCeleb and SITW datasets confirmed the efficacy of the
proposed method in handling uncertainty arising from embedding estimation. It
achieved improvement with 8.5% and 9.8% average reductions in EER and minDCF
compared to the conventional cosine similarity. It is also computationally
efficient in practice.
- Abstract(参考訳): 話者表現における不確かさのモデル化は,発話の変動を学習することを目的としている。
従来のcosine-scoringは、話者認識において計算効率が高く普及しているが、不確実性を扱う能力に欠ける。
この課題に対処するため,本論文では,フロントエンドを埋め込んだ話者の不確かさを推定し,コーズンスコアリングバックエンドに伝播する手法を提案する。
VoxCelebおよびSITWデータセットを用いて行った実験により,埋め込み推定による不確実性に対処する上で,提案手法の有効性が確認された。
従来のコサイン類似性と比較して、EERとminDCFの平均減少率は8.5%と9.8%であった。
実際に計算的にも効率的である。
関連論文リスト
- Enhancing dysarthria speech feature representation with empirical mode
decomposition and Walsh-Hadamard transform [8.032273183441921]
We propose a feature enhancement for dysarthria speech called WHFEMD。
実験モード分解(EMD)と高速ウォルシュ・アダマール変換(FWHT)を組み合わせて特徴を増強する。
論文 参考訳(メタデータ) (2023-12-30T13:25:26Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - dugMatting: Decomposed-Uncertainty-Guided Matting [83.71273621169404]
そこで本稿では, 明確に分解された不確かさを探索し, 効率よく効率よく改善する, 分解不確実性誘導型マッチングアルゴリズムを提案する。
提案したマッチングフレームワークは,シンプルで効率的なラベリングを用いて対話領域を決定する必要性を緩和する。
論文 参考訳(メタデータ) (2023-06-02T11:19:50Z) - Integrating Uncertainty into Neural Network-based Speech Enhancement [27.868722093985006]
時間周波数領域における監視されたマスキングアプローチは、ディープニューラルネットワークを使用して乗法マスクを推定し、クリーンな音声を抽出することを目的としている。
これにより、信頼性の保証や尺度を使わずに、各入力に対する単一の見積もりが導かれる。
クリーン音声推定における不確実性モデリングの利点について検討する。
論文 参考訳(メタデータ) (2023-05-15T15:55:12Z) - Probabilistic Back-ends for Online Speaker Recognition and Clustering [31.493856217110356]
本稿では,オンライン話者クラスタリングの課題において自然に発生する多言語話者認識に焦点を当てた。
一般的なコサインスコアは, 校正度が低かったり, 受講者の発話が多様であったりする。
確率線形判別分析(PLDA)の極端に制約されたバージョンに基づくコサインスコアの簡易な置き換えを提案する。
論文 参考訳(メタデータ) (2023-02-19T09:48:26Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian
Mixture Models [19.442685015494316]
単一チャンネルのディープ音声強調手法は、その精度を測らずにクリーン音声を抽出するために単一の乗法マスクを推定することが多い。
本稿では,ニューラルネットワークによる音声強調におけるクリーン音声推定に伴う不確かさの定量化を提案する。
論文 参考訳(メタデータ) (2022-12-09T13:03:09Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。