論文の概要: Adapting Speaker Embeddings for Speaker Diarisation
- arxiv url: http://arxiv.org/abs/2104.02879v1
- Date: Wed, 7 Apr 2021 03:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:32:21.431432
- Title: Adapting Speaker Embeddings for Speaker Diarisation
- Title(参考訳): 話者ダイアリゼーションのための話者埋め込み適応
- Authors: Youngki Kwon, Jee-weon Jung, Hee-Soo Heo, You Jin Kim, Bong-Jin Lee,
Joon Son Chung
- Abstract要約: 本論文の目的は,話者ダイアリゼーションの問題を解決するための話者埋め込みの適応である。
本研究では,話者埋め込みをダイアリゼーションに適合させるために,次元の縮小,注意に基づく埋め込み集約,非音声クラスタリングという3つの手法を提案する。
その結果,3つの手法はすべて,ベースライン上のダイアリゼーション誤差率で平均25.07%の相対的改善を達成するダイアリゼーションシステムの性能に正の貢献をすることがわかった。
- 参考スコア(独自算出の注目度): 30.383712356205084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to adapt speaker embeddings for solving the problem
of speaker diarisation. The quality of speaker embeddings is paramount to the
performance of speaker diarisation systems. Despite this, prior works in the
field have directly used embeddings designed only to be effective on the
speaker verification task. In this paper, we propose three techniques that can
be used to better adapt the speaker embeddings for diarisation: dimensionality
reduction, attention-based embedding aggregation, and non-speech clustering. A
wide range of experiments is performed on various challenging datasets. The
results demonstrate that all three techniques contribute positively to the
performance of the diarisation system achieving an average relative improvement
of 25.07% in terms of diarisation error rate over the baseline.
- Abstract(参考訳): 本稿では,話者ダイアリゼーション問題を解決するために話者埋め込みを適用することを目的とする。
話者埋め込みの品質は、話者ダイアリゼーションシステムの性能に最重要である。
それにもかかわらず、この分野の先行研究は、話者検証タスクにのみ有効に設計された埋め込みを直接使用してきた。
本稿では,ダイアリゼーションのための話者埋め込みの適応性を高めるために,次元の縮小,注意に基づく埋め込み集約,非音声クラスタリングという3つの手法を提案する。
さまざまな挑戦的なデータセットで、幅広い実験が行われます。
その結果,3つの手法はすべて,ベースライン上のダイアリゼーション誤差率で平均25.07%の相対的改善を達成するダイアリゼーションシステムの性能に正の貢献をすることがわかった。
関連論文リスト
- Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel
Multi-party Meeting Transcription Challenge [4.022057598291766]
マルチチャンネル多人数会議記述課題へのRoyalflush話者ダイアリゼーションシステムの適用
システムは、音声強調、重複音声検出、話者埋め込み抽出、話者クラスタリング、音声分離、システム融合を含む。
論文 参考訳(メタデータ) (2022-02-10T03:35:05Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Speaker Re-identification with Speaker Dependent Speech Enhancement [37.33388614967888]
本稿では,音声強調と話者認識を行う新しい手法を提案する。
提案手法は,実環境における話者認識評価を目的としたVoxceleb1データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-15T23:02:10Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。