Fugu-MT 論文翻訳(概要): Cosine Scoring with Uncertainty for Neural Speaker Embedding

論文の概要: Cosine Scoring with Uncertainty for Neural Speaker Embedding

arxiv url: http://arxiv.org/abs/2403.06404v1
Date: Mon, 11 Mar 2024 03:31:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 20:19:41.471344
Title: Cosine Scoring with Uncertainty for Neural Speaker Embedding
Title（参考訳）: ニューラルスピーカーの埋め込みにおける不確かさによるコサインスコーリング
Authors: Qiongqiong Wang, Kong Aik Lee
Abstract要約: 本稿では, フロントエンドを埋め込んだ話者の不確かさを推定し, コーシンスコアリングバックエンドに伝播する手法を提案する。従来のコサイン類似性と比較して、EERとminDCFの平均減少率は8.5%と9.8%で改善された。
参考スコア（独自算出の注目度）: 24.213914600143326
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Uncertainty modeling in speaker representation aims to learn the variability present in speech utterances. While the conventional cosine-scoring is computationally efficient and prevalent in speaker recognition, it lacks the capability to handle uncertainty. To address this challenge, this paper proposes an approach for estimating uncertainty at the speaker embedding front-end and propagating it to the cosine scoring back-end. Experiments conducted on the VoxCeleb and SITW datasets confirmed the efficacy of the proposed method in handling uncertainty arising from embedding estimation. It achieved improvement with 8.5% and 9.8% average reductions in EER and minDCF compared to the conventional cosine similarity. It is also computationally efficient in practice.
Abstract（参考訳）: 話者表現における不確かさのモデル化は,発話の変動を学習することを目的としている。従来のcosine-scoringは、話者認識において計算効率が高く普及しているが、不確実性を扱う能力に欠ける。この課題に対処するため,本論文では,フロントエンドを埋め込んだ話者の不確かさを推定し,コーズンスコアリングバックエンドに伝播する手法を提案する。 VoxCelebおよびSITWデータセットを用いて行った実験により,埋め込み推定による不確実性に対処する上で,提案手法の有効性が確認された。従来のコサイン類似性と比較して、EERとminDCFの平均減少率は8.5%と9.8%であった。実際に計算的にも効率的である。

関連論文リスト

Integrating Disparity Confidence Estimation into Relative Depth Prior-Guided Unsupervised Stereo Matching [55.784713740698365]
教師なしのステレオマッチングは、コストのかかる不均一なアノテーションから独立して、大きな注目を集めている。実現可能な解決策は、相対深度マップからステレオマッチングネットワークへの3次元幾何学的知識の転送にある。本研究は,これらの課題に対処する新しい教師なし学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-02T09:11:05Z)
Optimal kernel regression bounds under energy-bounded noise [2.6661512675766037]
カーネルベースの推定のために、厳密で漸近的でない不確実性を導出する。カーネルベースの推定値に対して,厳密で計算が容易なバウンダリを返却する効果を示す。
論文参考訳（メタデータ） (2025-05-28T11:11:24Z)
Efficient Post-Hoc Uncertainty Calibration via Variance-Based Smoothing [0.810304644344495]
従来のディープニューラルネットワークにおいて,事前情報の導入が不確実性推定を改善するか否かを検討する。私たちの焦点は、入力のサブ部分から意味のある予測ができる機械学習タスクです。
論文参考訳（メタデータ） (2025-03-19T16:47:15Z)
Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文参考訳（メタデータ） (2024-12-08T18:16:13Z)
Confidence Intervals and Simultaneous Confidence Bands Based on Deep Learning [0.36832029288386137]
本手法は, 適用された最適化アルゴリズムに固有の雑音からデータの不確実性を正しく解き放つことのできる, 有効な非パラメトリックブートストラップ法である。提案したアドホック法は、トレーニングプロセスに干渉することなく、ディープニューラルネットワークに容易に統合できる。
論文参考訳（メタデータ） (2024-06-20T05:51:37Z)
Rectified Iterative Disparity for Stereo Matching [2.8908326904081334]
コストボリュームに基づく不確実性不確実性推定(UEC)を提案する。画像対から得られるコストボリュームの豊富な類似性情報に基づいて,提案したUCCは,計算コストの低い競合性能を実現することができる。提案手法を組み合わせた高性能ステレオアーキテクチャDR Stereoを提案する。
論文参考訳（メタデータ） (2024-06-16T13:47:40Z)
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。 DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文参考訳（メタデータ） (2023-10-18T17:07:05Z)
Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文参考訳（メタデータ） (2023-06-08T06:06:42Z)
dugMatting: Decomposed-Uncertainty-Guided Matting [83.71273621169404]
そこで本稿では, 明確に分解された不確かさを探索し, 効率よく効率よく改善する, 分解不確実性誘導型マッチングアルゴリズムを提案する。提案したマッチングフレームワークは,シンプルで効率的なラベリングを用いて対話領域を決定する必要性を緩和する。
論文参考訳（メタデータ） (2023-06-02T11:19:50Z)
Integrating Uncertainty into Neural Network-based Speech Enhancement [27.868722093985006]
時間周波数領域における監視されたマスキングアプローチは、ディープニューラルネットワークを使用して乗法マスクを推定し、クリーンな音声を抽出することを目的としている。これにより、信頼性の保証や尺度を使わずに、各入力に対する単一の見積もりが導かれる。クリーン音声推定における不確実性モデリングの利点について検討する。
論文参考訳（メタデータ） (2023-05-15T15:55:12Z)
Fast Entropy-Based Methods of Word-Level Confidence Estimation for End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文参考訳（メタデータ） (2022-12-16T20:27:40Z)
Uncertainty Estimation in Deep Speech Enhancement Using Complex Gaussian Mixture Models [19.442685015494316]
単一チャンネルのディープ音声強調手法は、その精度を測らずにクリーン音声を抽出するために単一の乗法マスクを推定することが多い。本稿では,ニューラルネットワークによる音声強調におけるクリーン音声推定に伴う不確かさの定量化を提案する。
論文参考訳（メタデータ） (2022-12-09T13:03:09Z)
Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文参考訳（メタデータ） (2020-12-14T12:30:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。