論文の概要: Multi-scale Speaker Diarization with Dynamic Scale Weighting
- arxiv url: http://arxiv.org/abs/2203.15974v1
- Date: Wed, 30 Mar 2022 01:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 02:58:48.480324
- Title: Multi-scale Speaker Diarization with Dynamic Scale Weighting
- Title(参考訳): 動的重み付けによるマルチスケール話者ダイアリゼーション
- Authors: Tae Jin Park, Nithin Rao Koluguri, Jagadeesh Balam and Boris Ginsburg
- Abstract要約: マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
提案システムでは,CALLHOMEデータセットとAMI MixHeadsetデータセットに対して,それぞれ3.92%,1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 14.473173007997751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker diarization systems are challenged by a trade-off between the
temporal resolution and the fidelity of the speaker representation. By
obtaining a superior temporal resolution with an enhanced accuracy, a
multi-scale approach is a way to cope with such a trade-off. In this paper, we
propose a more advanced multi-scale diarization system based on a multi-scale
diarization decoder. There are two main contributions in this study that
significantly improve the diarization performance. First, we use multi-scale
clustering as an initialization to estimate the number of speakers and obtain
the average speaker representation vector for each speaker and each scale.
Next, we propose the use of 1-D convolutional neural networks that dynamically
determine the importance of each scale at each time step. To handle a variable
number of speakers and overlapping speech, the proposed system can estimate the
number of existing speakers. Our proposed system achieves a state-of-art
performance on the CALLHOME and AMI MixHeadset datasets, with 3.92% and 1.05%
diarization error rates, respectively.
- Abstract(参考訳): 話者ダイアリゼーションシステムは、時間分解能と話者表現の忠実度とのトレードオフによって挑戦される。
高い時間分解能を精度良く得ることで、マルチスケールアプローチはそのようなトレードオフに対処する方法である。
本稿では,マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
本研究にはダイアリゼーション性能を著しく向上させる2つの主な貢献がある。
まず,マルチスケールクラスタリングを初期化として,話者数を推定し,各話者と各尺度の平均話者表現ベクトルを求める。
次に,各時間ステップにおける各スケールの重要性を動的に決定する1次元畳み込みニューラルネットワークの利用を提案する。
可変話者数と重複音声を処理するために,提案方式では既存の話者数を推定できる。
提案システムは,callhomeおよびami mixheadsetデータセットにおいて,それぞれ3.92%と1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - High-resolution embedding extractor for speaker diarisation [15.392429990363492]
本研究では,高分解能埋込抽出器(HEE)と呼ばれる新しい埋込抽出器アーキテクチャを提案する。
HEEは機能マップ抽出器とエンハンサーで構成されており、自己認識機構を備えたエンハンサーが成功の鍵となる。
4つの公開データセットを含む5つの評価セットの実験を通じて、提案したHEEは、各評価セットに対して少なくとも10%の改善を示す。
論文 参考訳(メタデータ) (2022-11-08T07:41:18Z) - Generation of Speaker Representations Using Heterogeneous Training Batch
Assembly [16.534380339042087]
本稿では,CNNに基づく話者モデリング手法を提案する。
トレーニングデータを一組のセグメントにランダムに合成的に拡張する。
各セグメントには、その話者占有率に基づいてソフトラベルが課される。
論文 参考訳(メタデータ) (2022-03-30T19:59:05Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multi-scale speaker embedding-based graph attention networks for speaker
diarisation [30.383712356205084]
マルチスケール話者ダイアリゼーションのためのグラフアテンションネットワークを提案する。
各埋め込みのスケール情報を利用するためのスケールインジケータを設計する。
我々は,アテンションに基づくアグリゲーションを適用し,マルチスケール埋め込みから事前計算されたアフィニティ行列を利用する。
論文 参考訳(メタデータ) (2021-10-07T11:59:02Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。