論文の概要: Probabilistic embeddings for speaker diarization
- arxiv url: http://arxiv.org/abs/2004.04096v3
- Date: Fri, 6 Nov 2020 06:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:20:12.656096
- Title: Probabilistic embeddings for speaker diarization
- Title(参考訳): 話者ダイアリゼーションのための確率的埋め込み
- Authors: Anna Silnova, Niko Br\"ummer, Johan Rohdin, Themos Stafylakis,
Luk\'a\v{s} Burget
- Abstract要約: 非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。
我々は,このレシピを,対角線精度行列であるxベクトルと並行して,各音声区間から抽出することによって一般化する。
これらの精度は、高品質な音声セグメントから抽出された場合、埋め込みの値が何であったかの不確かさを定量化する。
- 参考スコア(独自算出の注目度): 13.276960253126656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker embeddings (x-vectors) extracted from very short segments of speech
have recently been shown to give competitive performance in speaker
diarization. We generalize this recipe by extracting from each speech segment,
in parallel with the x-vector, also a diagonal precision matrix, thus providing
a path for the propagation of information about the quality of the speech
segment into a PLDA scoring backend. These precisions quantify the uncertainty
about what the values of the embeddings might have been if they had been
extracted from high quality speech segments. The proposed probabilistic
embeddings (x-vectors with precisions) are interfaced with the PLDA model by
treating the x-vectors as hidden variables and marginalizing them out. We apply
the proposed probabilistic embeddings as input to an agglomerative hierarchical
clustering (AHC) algorithm to do diarization in the DIHARD'19 evaluation set.
We compute the full PLDA likelihood 'by the book' for each clustering
hypothesis that is considered by AHC. We do joint discriminative training of
the PLDA parameters and of the probabilistic x-vector extractor. We demonstrate
accuracy gains relative to a baseline AHC algorithm, applied to traditional
xvectors (without uncertainty), and which uses averaging of binary
log-likelihood-ratios, rather than by-the-book scoring.
- Abstract(参考訳): 非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。
我々は,各音声区間から,xベクトルと平行して対角的精度行列を抽出し,音声区間の質に関する情報をPLDAスコアリングバックエンドに伝達する経路を提供することにより,このレシピを一般化する。
これらの精度は、高品質の音声セグメントから抽出された場合の埋め込みの値について不確かさを定量化する。
提案した確率的埋め込み (x-vectors with precisions) は,x-vectorsを隠れ変数として扱うことによりPLDAモデルと相互作用する。
提案する確率的埋め込みをagglomerative hierarchical clustering (ahc) アルゴリズムに入力として適用し,dihard'19評価セットでダイアリゼーションを行う。
我々は、AHCが考えるクラスタリング仮説ごとに「本によって」PLDAの確率を計算します。
我々はpldaパラメータと確率的x-vector抽出器の合同識別訓練を行う。
我々は,従来のxvectorに対して(不確実性なく)適用されたベースラインAHCアルゴリズムと比較して精度の高いゲインを示す。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Diarisation using location tracking with agglomerative clustering [42.13772744221499]
本稿では,Agglomerative Hierarchical Clustering (AHC)ダイアリゼーションフレームワークにおける話者の動きを明示的にモデル化する。
実験により、提案手法は、Microsoftリッチミーティングの書き起こしタスクを改善することができることが示された。
論文 参考訳(メタデータ) (2021-09-22T08:54:10Z) - Kernel Density Estimation by Stagewise Algorithm with a Simple
Dictionary [0.0]
本稿では,U-divergenceの簡単な辞書を用いて,ステージワイズアルゴリズムによるカーネル密度推定について検討する。
i.d.サンプルをランダムに2つの非結合集合に分割し,その1つは辞書内のカーネルを構築するためのもので,もう1つは推定器を評価するためのものである。
論文 参考訳(メタデータ) (2021-07-27T17:05:06Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - MaP: A Matrix-based Prediction Approach to Improve Span Extraction in
Machine Reading Comprehension [40.22845723686718]
本稿では,確率ベクトルを確率行列に拡張する新しい手法を提案する。
可能な開始指数ごとに、メソッドは常に終了確率ベクトルを生成する。
我々はSQuAD 1.1と他の3つの質問応答ベンチマークについて評価した。
論文 参考訳(メタデータ) (2020-09-29T23:53:50Z) - Pairwise Discriminative Neural PLDA for Speaker Verification [41.76303371621405]
本稿では,話者検証作業のためのPairwise Neural Discriminative Modelを提案する。
我々は,話者の検証損失を近似する微分可能なコスト関数を構築した。
NIST SRE 2018の開発および評価データセット上で実験が実施されている。
論文 参考訳(メタデータ) (2020-01-20T09:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。