論文の概要: Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios
- arxiv url: http://arxiv.org/abs/2407.01317v1
- Date: Mon, 1 Jul 2024 14:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:10:33.578604
- Title: Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios
- Title(参考訳): 2話者シナリオにおけるエンド・ツー・エンドニューラルダイアリゼーションにおける話者埋め込みの活用
- Authors: Juan Ignacio Alvarez-Trejos, Beltrán Labrador, Alicia Lozano-Diez,
- Abstract要約: エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
- 参考スコア(独自算出の注目度): 0.9094127664014627
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: End-to-end neural speaker diarization systems are able to address the speaker diarization task while effectively handling speech overlap. This work explores the incorporation of speaker information embeddings into the end-to-end systems to enhance the speaker discriminative capabilities, while maintaining their overlap handling strengths. To achieve this, we propose several methods for incorporating these embeddings along the acoustic features. Furthermore, we delve into an analysis of the correct handling of silence frames, the window length for extracting speaker embeddings and the transformer encoder size. The effectiveness of our proposed approach is thoroughly evaluated on the CallHome dataset for the two-speaker diarization task, with results that demonstrate a significant reduction in diarization error rates achieving a relative improvement of a 10.78% compared to the baseline end-to-end model.
- Abstract(参考訳): エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者情報のエンド・ツー・エンドシステムへの組み込みについて検討し,その重なり合う処理強度を維持しつつ,話者識別能力を高めることを目的とする。
そこで本研究では,これらの埋め込みを音響的特徴に沿って組み込む手法を提案する。
さらに、サイレントフレームの正しいハンドリング、話者埋め込みを抽出するウィンドウ長、トランスバータエンコーダサイズの分析を行った。
提案手法の有効性を,2話者ダイアリゼーションタスクのCallHomeデータセットを用いて徹底的に評価し,ベースラインのエンド・ツー・エンドモデルと比較して10.78%の相対的な改善を実現したダイアリゼーション誤差率の顕著な低下を示す結果を得た。
関連論文リスト
- Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Multi-scale Speaker Diarization with Dynamic Scale Weighting [14.473173007997751]
マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
提案システムでは,CALLHOMEデータセットとAMI MixHeadsetデータセットに対して,それぞれ3.92%,1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T01:26:31Z) - Disentangled dimensionality reduction for noise-robust speaker
diarisation [30.383712356205084]
話者埋め込みはダイアリゼーションシステムの性能において重要な役割を果たす。
話者埋め込みは、しばしばノイズや残響などの急激な情報を捉え、性能に悪影響を及ぼす。
本稿では,話者埋め込みから急激な情報を解き放つことのできる新しい次元還元フレームワークを提案する。
また,背景雑音から話者コードが学習されるのを防止するために,音声・非音声指標も提案する。
論文 参考訳(メタデータ) (2021-10-07T12:19:09Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Adapting Speaker Embeddings for Speaker Diarisation [30.383712356205084]
本論文の目的は,話者ダイアリゼーションの問題を解決するための話者埋め込みの適応である。
本研究では,話者埋め込みをダイアリゼーションに適合させるために,次元の縮小,注意に基づく埋め込み集約,非音声クラスタリングという3つの手法を提案する。
その結果,3つの手法はすべて,ベースライン上のダイアリゼーション誤差率で平均25.07%の相対的改善を達成するダイアリゼーションシステムの性能に正の貢献をすることがわかった。
論文 参考訳(メタデータ) (2021-04-07T03:04:47Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Identify Speakers in Cocktail Parties with End-to-End Attention [48.96655134462949]
本稿では,音声ソース抽出と話者識別を統合したエンドツーエンドシステムを提案する。
本稿では,チャネル次元に沿って話者予測を最大にすることで,これら2つの部分を協調的に最適化する方法を提案する。
エンドツーエンドのトレーニングは、99.9%の精度と93.9%の精度で2話者放送音声の1つの話者を認識するシステムである。
論文 参考訳(メタデータ) (2020-05-22T22:15:16Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。