Fugu-MT 論文翻訳(概要): Probabilistic embeddings for speaker diarization

論文の概要: Probabilistic embeddings for speaker diarization

arxiv url: http://arxiv.org/abs/2004.04096v3
Date: Fri, 6 Nov 2020 06:16:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 06:20:12.656096
Title: Probabilistic embeddings for speaker diarization
Title（参考訳）: 話者ダイアリゼーションのための確率的埋め込み
Authors: Anna Silnova, Niko Br\"ummer, Johan Rohdin, Themos Stafylakis, Luk\'a\v{s} Burget
Abstract要約: 非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。我々は,このレシピを,対角線精度行列であるxベクトルと並行して,各音声区間から抽出することによって一般化する。これらの精度は、高品質な音声セグメントから抽出された場合、埋め込みの値が何であったかの不確かさを定量化する。
参考スコア（独自算出の注目度）: 13.276960253126656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speaker embeddings (x-vectors) extracted from very short segments of speech have recently been shown to give competitive performance in speaker diarization. We generalize this recipe by extracting from each speech segment, in parallel with the x-vector, also a diagonal precision matrix, thus providing a path for the propagation of information about the quality of the speech segment into a PLDA scoring backend. These precisions quantify the uncertainty about what the values of the embeddings might have been if they had been extracted from high quality speech segments. The proposed probabilistic embeddings (x-vectors with precisions) are interfaced with the PLDA model by treating the x-vectors as hidden variables and marginalizing them out. We apply the proposed probabilistic embeddings as input to an agglomerative hierarchical clustering (AHC) algorithm to do diarization in the DIHARD'19 evaluation set. We compute the full PLDA likelihood 'by the book' for each clustering hypothesis that is considered by AHC. We do joint discriminative training of the PLDA parameters and of the probabilistic x-vector extractor. We demonstrate accuracy gains relative to a baseline AHC algorithm, applied to traditional xvectors (without uncertainty), and which uses averaging of binary log-likelihood-ratios, rather than by-the-book scoring.
Abstract（参考訳）: 非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。我々は,各音声区間から,xベクトルと平行して対角的精度行列を抽出し,音声区間の質に関する情報をPLDAスコアリングバックエンドに伝達する経路を提供することにより,このレシピを一般化する。これらの精度は、高品質の音声セグメントから抽出された場合の埋め込みの値について不確かさを定量化する。提案した確率的埋め込み (x-vectors with precisions) は,x-vectorsを隠れ変数として扱うことによりPLDAモデルと相互作用する。提案する確率的埋め込みをagglomerative hierarchical clustering (ahc) アルゴリズムに入力として適用し,dihard'19評価セットでダイアリゼーションを行う。我々は、AHCが考えるクラスタリング仮説ごとに「本によって」PLDAの確率を計算します。我々はpldaパラメータと確率的x-vector抽出器の合同識別訓練を行う。我々は,従来のxvectorに対して(不確実性なく)適用されたベースラインAHCアルゴリズムと比較して精度の高いゲインを示す。

関連論文リスト

Efficient Post-Hoc Uncertainty Calibration via Variance-Based Smoothing [0.810304644344495]
従来のディープニューラルネットワークにおいて,事前情報の導入が不確実性推定を改善するか否かを検討する。私たちの焦点は、入力のサブ部分から意味のある予測ができる機械学習タスクです。
論文参考訳（メタデータ） (2025-03-19T16:47:15Z)
PREAMBLE: Private and Efficient Aggregation via Block Sparse Vectors [42.968231105076335]
プリオのような2サーバシステムにおける高次元ベクトルの安全なアグリゲーションの問題を再考する。 PreAMBLEは分散ポイント関数の拡張の上に構築されており、スパースベクトルの通信と効率的な集約を可能にする。
論文参考訳（メタデータ） (2025-03-14T21:58:15Z)
Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文参考訳（メタデータ） (2024-11-04T14:29:02Z)
Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文参考訳（メタデータ） (2024-04-15T12:38:46Z)
DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。 DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文参考訳（メタデータ） (2023-10-18T17:07:05Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。 PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文参考訳（メタデータ） (2022-01-26T19:59:14Z)
Diarisation using location tracking with agglomerative clustering [42.13772744221499]
本稿では,Agglomerative Hierarchical Clustering (AHC)ダイアリゼーションフレームワークにおける話者の動きを明示的にモデル化する。実験により、提案手法は、Microsoftリッチミーティングの書き起こしタスクを改善することができることが示された。
論文参考訳（メタデータ） (2021-09-22T08:54:10Z)
Kernel Density Estimation by Stagewise Algorithm with a Simple Dictionary [0.0]
本稿では,U-divergenceの簡単な辞書を用いて,ステージワイズアルゴリズムによるカーネル密度推定について検討する。 i.d.サンプルをランダムに2つの非結合集合に分割し,その1つは辞書内のカーネルを構築するためのもので,もう1つは推定器を評価するためのものである。
論文参考訳（メタデータ） (2021-07-27T17:05:06Z)
Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文参考訳（メタデータ） (2021-06-11T13:03:33Z)
MaP: A Matrix-based Prediction Approach to Improve Span Extraction in Machine Reading Comprehension [40.22845723686718]
本稿では,確率ベクトルを確率行列に拡張する新しい手法を提案する。可能な開始指数ごとに、メソッドは常に終了確率ベクトルを生成する。我々はSQuAD 1.1と他の3つの質問応答ベンチマークについて評価した。
論文参考訳（メタデータ） (2020-09-29T23:53:50Z)
Pairwise Discriminative Neural PLDA for Speaker Verification [41.76303371621405]
本稿では,話者検証作業のためのPairwise Neural Discriminative Modelを提案する。我々は,話者の検証損失を近似する微分可能なコスト関数を構築した。 NIST SRE 2018の開発および評価データセット上で実験が実施されている。
論文参考訳（メタデータ） (2020-01-20T09:52:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。