論文の概要: Probabilistic Back-ends for Online Speaker Recognition and Clustering
- arxiv url: http://arxiv.org/abs/2302.09523v1
- Date: Sun, 19 Feb 2023 09:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:58:47.012854
- Title: Probabilistic Back-ends for Online Speaker Recognition and Clustering
- Title(参考訳): オンライン話者認識とクラスタリングのための確率的バックエンド
- Authors: Alexey Sholokhov, Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng
- Abstract要約: 本稿では,オンライン話者クラスタリングの課題において自然に発生する多言語話者認識に焦点を当てた。
一般的なコサインスコアは, 校正度が低かったり, 受講者の発話が多様であったりする。
確率線形判別分析(PLDA)の極端に制約されたバージョンに基づくコサインスコアの簡易な置き換えを提案する。
- 参考スコア(独自算出の注目度): 31.493856217110356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on multi-enrollment speaker recognition which naturally
occurs in the task of online speaker clustering, and studies the properties of
different scoring back-ends in this scenario. First, we show that popular
cosine scoring suffers from poor score calibration with a varying number of
enrollment utterances. Second, we propose a simple replacement for cosine
scoring based on an extremely constrained version of probabilistic linear
discriminant analysis (PLDA). The proposed model improves over the cosine
scoring for multi-enrollment recognition while keeping the same performance in
the case of one-to-one comparisons. Finally, we consider an online speaker
clustering task where each step naturally involves multi-enrollment
recognition. We propose an online clustering algorithm allowing us to take
benefits from the PLDA model such as the ability to handle uncertainty and
better score calibration. Our experiments demonstrate the effectiveness of the
proposed algorithm.
- Abstract(参考訳): 本稿では,オンライン話者クラスタリングのタスクにおいて自然に発生するマルチエンローメント話者認識に着目し,このシナリオにおけるスコアリングバックエンドの特性について検討する。
まず,人気のコサインスコアが,多人数の登録発話を伴う低得点校正に苦しむことを示す。
第2に,確率的線形判別分析(plda)の極めて制約のあるバージョンに基づく,cosineスコアの簡易な置き換えを提案する。
提案モデルでは,1対1比較の場合と同様の性能を維持しつつ,コサインスコアを改良し,マルチエンクルーメント認識を実現する。
最後に、各ステップが自然にマルチエンローメント認識を伴うオンライン話者クラスタリングタスクについて考察する。
本研究では,不確実性処理能力やスコアキャリブレーションの改善など,pldaモデルの利点を享受できるオンラインクラスタリングアルゴリズムを提案する。
本実験は,提案アルゴリズムの有効性を示す。
関連論文リスト
- Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Parameter-Free Attentive Scoring for Speaker Verification [8.130940584901959]
本稿では,話者検証のためのパラメータフリー注意点定法について,新しい研究を行った。
トランスフォーマーニューラルネットワークのアテンション成分に着想を得て,参加者とテストセグメントの表現を比較するために,スケールドドット製品アテンション機構の変種を提案する。
4タスク平均に対する実験結果から, 単純なパラメータフリー注意スコアリング機構により, 最高のコサイン類似度ベースラインよりも平均EERを10%向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-10T21:11:37Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。