論文の概要: Combination of Deep Speaker Embeddings for Diarisation
- arxiv url: http://arxiv.org/abs/2010.12025v3
- Date: Fri, 7 May 2021 08:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:43:36.543640
- Title: Combination of Deep Speaker Embeddings for Diarisation
- Title(参考訳): ダイアリゼーションのための深部話者埋め込みの組合せ
- Authors: Guangzhi Sun and Chao Zhang and Phil Woodland
- Abstract要約: 本稿では、異なるNN成分を持つシステムから派生した複数の相補的なd-ベクターの組み合わせにより、c-ベクター法を提案する。
本稿では,ニューラルネットワークを用いた単一パス話者ダイアリゼーションパイプラインを提案する。
挑戦的なAMIとNIST RT05データセットについて実験と詳細な分析を行った。
- 参考スコア(独自算出の注目度): 9.053645441056256
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Significant progress has recently been made in speaker diarisation after the
introduction of d-vectors as speaker embeddings extracted from neural network
(NN) speaker classifiers for clustering speech segments. To extract
better-performing and more robust speaker embeddings, this paper proposes a
c-vector method by combining multiple sets of complementary d-vectors derived
from systems with different NN components. Three structures are used to
implement the c-vectors, namely 2D self-attentive, gated additive, and bilinear
pooling structures, relying on attention mechanisms, a gating mechanism, and a
low-rank bilinear pooling mechanism respectively. Furthermore, a neural-based
single-pass speaker diarisation pipeline is also proposed in this paper, which
uses NNs to achieve voice activity detection, speaker change point detection,
and speaker embedding extraction. Experiments and detailed analyses are
conducted on the challenging AMI and NIST RT05 datasets which consist of real
meetings with 4--10 speakers and a wide range of acoustic conditions. For
systems trained on the AMI training set, relative speaker error rate (SER)
reductions of 13% and 29% are obtained by using c-vectors instead of d-vectors
on the AMI dev and eval sets respectively, and a relative reduction of 15% in
SER is observed on RT05, which shows the robustness of the proposed methods. By
incorporating VoxCeleb data into the training set, the best c-vector system
achieved 7%, 17% and16% relative SER reduction compared to the d-vector on the
AMI dev, eval, and RT05 sets respectively
- Abstract(参考訳): ニューラルネットワーク(nn)話者分類器から抽出した話者埋め込みとしてd-vectorsを導入した後、話者ダイアリゼーションにおいて、近年大きく進歩した。
本稿では,より高性能でロバストな話者埋め込みを抽出するために,nn成分の異なるシステムから派生した相補的d-ベクトルの集合を複数組み合わせ,c-ベクトル法を提案する。
3つの構造は、それぞれ注意機構、ゲーティング機構、低ランク双線型プーリング機構に依存する2次元自己注意性、ゲート添加物、およびバイリニアプーリング構造を実装するために使用される。
さらに, ニューラルベース単一パス話者ダイアリゼーションパイプラインも提案し, NNを用いて音声活動検出, 話者変化点検出, 話者埋め込み抽出を実現している。
4~10人の話者による実際の会議と幅広い音響条件からなる挑戦的AMIおよびNIST RT05データセットについて実験と詳細な分析を行った。
AMIトレーニングセットでトレーニングしたシステムでは,AMIのdベクターの代わりにcベクターを用いて,相対話者誤り率(SER)を13%,29%削減し,RT05では相対SERの15%削減を観測し,提案手法のロバスト性を示した。
VoxCelebデータをトレーニングセットに組み込むことで、最高のCベクターシステムは、AMI デベクター、eval、RT05セットのdベクターに比べて7%、17%、および16%のSER削減を達成した。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Generation of Speaker Representations Using Heterogeneous Training Batch
Assembly [16.534380339042087]
本稿では,CNNに基づく話者モデリング手法を提案する。
トレーニングデータを一組のセグメントにランダムに合成的に拡張する。
各セグメントには、その話者占有率に基づいてソフトラベルが課される。
論文 参考訳(メタデータ) (2022-03-30T19:59:05Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Neural i-vectors [21.13825969777844]
深部埋込抽出機とi-vector抽出機を連続的に使用することを検討した。
iベクトル抽出器にディープ埋め込み抽出器をバンドルするために,ガウス混合モデル(GMM)にインスパイアされたアグリゲーション層を埋め込み抽出器ネットワークに導入する。
提案したニューラルネットワークi-vectors on the Speakers in the Wild (SITW) と Speaker Recognition Evaluation (SRE) 2018 と 2019 のデータセットを比較した。
論文 参考訳(メタデータ) (2020-04-03T13:29:31Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。