論文の概要: Probabilistic embeddings for speaker diarization
- arxiv url: http://arxiv.org/abs/2004.04096v3
- Date: Fri, 6 Nov 2020 06:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:20:12.656096
- Title: Probabilistic embeddings for speaker diarization
- Title(参考訳): 話者ダイアリゼーションのための確率的埋め込み
- Authors: Anna Silnova, Niko Br\"ummer, Johan Rohdin, Themos Stafylakis,
Luk\'a\v{s} Burget
- Abstract要約: 非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。
我々は,このレシピを,対角線精度行列であるxベクトルと並行して,各音声区間から抽出することによって一般化する。
これらの精度は、高品質な音声セグメントから抽出された場合、埋め込みの値が何であったかの不確かさを定量化する。
- 参考スコア(独自算出の注目度): 13.276960253126656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker embeddings (x-vectors) extracted from very short segments of speech
have recently been shown to give competitive performance in speaker
diarization. We generalize this recipe by extracting from each speech segment,
in parallel with the x-vector, also a diagonal precision matrix, thus providing
a path for the propagation of information about the quality of the speech
segment into a PLDA scoring backend. These precisions quantify the uncertainty
about what the values of the embeddings might have been if they had been
extracted from high quality speech segments. The proposed probabilistic
embeddings (x-vectors with precisions) are interfaced with the PLDA model by
treating the x-vectors as hidden variables and marginalizing them out. We apply
the proposed probabilistic embeddings as input to an agglomerative hierarchical
clustering (AHC) algorithm to do diarization in the DIHARD'19 evaluation set.
We compute the full PLDA likelihood 'by the book' for each clustering
hypothesis that is considered by AHC. We do joint discriminative training of
the PLDA parameters and of the probabilistic x-vector extractor. We demonstrate
accuracy gains relative to a baseline AHC algorithm, applied to traditional
xvectors (without uncertainty), and which uses averaging of binary
log-likelihood-ratios, rather than by-the-book scoring.
- Abstract(参考訳): 非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。
我々は,各音声区間から,xベクトルと平行して対角的精度行列を抽出し,音声区間の質に関する情報をPLDAスコアリングバックエンドに伝達する経路を提供することにより,このレシピを一般化する。
これらの精度は、高品質の音声セグメントから抽出された場合の埋め込みの値について不確かさを定量化する。
提案した確率的埋め込み (x-vectors with precisions) は,x-vectorsを隠れ変数として扱うことによりPLDAモデルと相互作用する。
提案する確率的埋め込みをagglomerative hierarchical clustering (ahc) アルゴリズムに入力として適用し,dihard'19評価セットでダイアリゼーションを行う。
我々は、AHCが考えるクラスタリング仮説ごとに「本によって」PLDAの確率を計算します。
我々はpldaパラメータと確率的x-vector抽出器の合同識別訓練を行う。
我々は,従来のxvectorに対して(不確実性なく)適用されたベースラインAHCアルゴリズムと比較して精度の高いゲインを示す。
関連論文リスト
- Entrywise Inference for Causal Panel Data: A Simple and Instance-Optimal
Approach [32.253391125106674]
本研究では,予め規定されたカバレッジ保証を伴うエントリワイド信頼区間を構築するためのデータ駆動方式を開発する。
本分析は,行列記述モデルに適用したSVDアルゴリズムの一般的な推論ツールボックスに基づく。
論文 参考訳(メタデータ) (2024-01-24T18:58:18Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Factorizers for Distributed Sparse Block Codes [62.38616784953048]
分散ブロック符号(SBC)は、固定ベクトルを用いてシンボルデータ構造を符号化し、操作するためのコンパクトな表現を示す。
主要な課題の1つは、可能なすべての組み合わせを探索することなく、そのようなデータ構造を構成要素に切り離し、あるいは分解することである。
GSBCと呼ばれるより柔軟で一般化されたSBCを分解する高速かつ高精度な手法を提案する。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Weight Vector Tuning and Asymptotic Analysis of Binary Linear
Classifiers [82.5915112474988]
本稿では,スカラーによる判別器の分解をパラメータ化することで,ジェネリックバイナリ線形分類器の重みベクトルチューニングを提案する。
また,重みベクトルチューニングは,高推定雑音下での線形判別分析(LDA)の性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-10-01T17:50:46Z) - Diarisation using location tracking with agglomerative clustering [42.13772744221499]
本稿では,Agglomerative Hierarchical Clustering (AHC)ダイアリゼーションフレームワークにおける話者の動きを明示的にモデル化する。
実験により、提案手法は、Microsoftリッチミーティングの書き起こしタスクを改善することができることが示された。
論文 参考訳(メタデータ) (2021-09-22T08:54:10Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - MaP: A Matrix-based Prediction Approach to Improve Span Extraction in
Machine Reading Comprehension [40.22845723686718]
本稿では,確率ベクトルを確率行列に拡張する新しい手法を提案する。
可能な開始指数ごとに、メソッドは常に終了確率ベクトルを生成する。
我々はSQuAD 1.1と他の3つの質問応答ベンチマークについて評価した。
論文 参考訳(メタデータ) (2020-09-29T23:53:50Z) - Pairwise Discriminative Neural PLDA for Speaker Verification [41.76303371621405]
本稿では,話者検証作業のためのPairwise Neural Discriminative Modelを提案する。
我々は,話者の検証損失を近似する微分可能なコスト関数を構築した。
NIST SRE 2018の開発および評価データセット上で実験が実施されている。
論文 参考訳(メタデータ) (2020-01-20T09:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。