論文の概要: Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization
- arxiv url: http://arxiv.org/abs/2205.09709v1
- Date: Thu, 19 May 2022 17:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:00:56.875919
- Title: Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization
- Title(参考訳): 話者ダイアリゼーションのためのアグロマリティブ階層クラスタリング(AHC)を用いたBi-LSTMスコーリングによる類似度測定
- Authors: Siddharth S. Nijhawan and Homayoon Beigi
- Abstract要約: 2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Majority of speech signals across different scenarios are never available
with well-defined audio segments containing only a single speaker. A typical
conversation between two speakers consists of segments where their voices
overlap, interrupt each other or halt their speech in between multiple
sentences. Recent advancements in diarization technology leverage neural
network-based approaches to improvise multiple subsystems of speaker
diarization system comprising of extracting segment-wise embedding features and
detecting changes in the speaker during conversation. However, to identify
speaker through clustering, models depend on methodologies like PLDA to
generate similarity measure between two extracted segments from a given
conversational audio. Since these algorithms ignore the temporal structure of
conversations, they tend to achieve a higher Diarization Error Rate (DER), thus
leading to misdetections both in terms of speaker and change identification.
Therefore, to compare similarity of two speech segments both independently and
sequentially, we propose a Bi-directional Long Short-term Memory network for
estimating the elements present in the similarity matrix. Once the similarity
matrix is generated, Agglomerative Hierarchical Clustering (AHC) is applied to
further identify speaker segments based on thresholding. To evaluate the
performance, Diarization Error Rate (DER%) metric is used. The proposed model
achieves a low DER of 34.80% on a test set of audio samples derived from ICSI
Meeting Corpus as compared to traditional PLDA based similarity measurement
mechanism which achieved a DER of 39.90%.
- Abstract(参考訳): 異なるシナリオにわたる音声信号の多数は、1つの話者のみを含む明確に定義された音声セグメントでは利用できない。
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、セグメントワイド埋め込みの特徴を抽出し、会話中の話者の変化を検出することを含む、話者ダイアリゼーションシステムの複数のサブシステムを改善するために、ニューラルネットワークベースのアプローチを活用する。
しかし、クラスタリングによって話者を特定するために、モデルはPLDAのような手法に依存し、与えられた会話音声から抽出された2つのセグメント間の類似度を測定する。
これらのアルゴリズムは会話の時間的構造を無視するため、高いダイアリゼーション誤り率(DER)を達成する傾向にあり、話者識別と変化識別の両方の誤検出につながる。
そこで,2つの音声セグメントの相似性を独立かつ逐次的に比較するために,相似行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
類似度行列が生成されると、しきい値に基づいて話者セグメントをさらに識別するためにAHC(Agglomerative Hierarchical Clustering)が適用される。
性能を評価するために、ダイアリゼーション誤差レート(DER%)メートル法を用いる。
提案モデルは,従来のPLDAに基づく類似度測定機構と比較して,ICSI Meeting Corpus から抽出した音声サンプルの試験セットに対して,低DDERの34.80%を達成する。
関連論文リスト
- Multi-microphone Automatic Speech Segmentation in Meetings Based on
Circular Harmonics Features [0.0]
円形高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。
AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。
論文 参考訳(メタデータ) (2023-06-07T09:09:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - VarArray: Array-Geometry-Agnostic Continuous Speech Separation [26.938313513582642]
マイクロホンアレイを用いた連続音声分離は、自然な会話の書き起こしにおける音声重なり問題に対処する上で有望であることが示された。
本稿では,アレージオメトリーに依存しない音声分離ニューラルネットワークモデルであるVarArrayを提案する。
論文 参考訳(メタデータ) (2021-10-12T05:31:46Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。