論文の概要: In search of strong embedding extractors for speaker diarisation
- arxiv url: http://arxiv.org/abs/2210.14682v1
- Date: Wed, 26 Oct 2022 13:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:42:13.832933
- Title: In search of strong embedding extractors for speaker diarisation
- Title(参考訳): 話者ダイアリゼーションのための強埋め込み抽出器の探索
- Authors: Jee-weon Jung, Hee-Soo Heo, Bong-Jin Lee, Jaesung Huh, Andrew Brown,
Youngki Kwon, Shinji Watanabe, Joon Son Chung
- Abstract要約: 話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 49.7017388682077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker embedding extractors (EEs), which map input audio to a speaker
discriminant latent space, are of paramount importance in speaker diarisation.
However, there are several challenges when adopting EEs for diarisation, from
which we tackle two key problems. First, the evaluation is not straightforward
because the features required for better performance differ between speaker
verification and diarisation. We show that better performance on widely adopted
speaker verification evaluation protocols does not lead to better diarisation
performance. Second, embedding extractors have not seen utterances in which
multiple speakers exist. These inputs are inevitably present in speaker
diarisation because of overlapped speech and speaker changes; they degrade the
performance. To mitigate the first problem, we generate speaker verification
evaluation protocols that mimic the diarisation scenario better. We propose two
data augmentation techniques to alleviate the second problem, making embedding
extractors aware of overlapped speech or speaker change input. One technique
generates overlapped speech segments, and the other generates segments where
two speakers utter sequentially. Extensive experimental results using three
state-of-the-art speaker embedding extractors demonstrate that both proposed
approaches are effective.
- Abstract(参考訳): 話者ダイアリゼーションにおいて、入力音声を話者判別潜在空間にマッピングする話者埋め込み抽出器(EEs)が最重要となる。
しかし、ダイアリゼーションにEEを採用する際にはいくつかの課題があり、そこから2つの重要な問題に取り組みます。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
第二に、埋め込み抽出器は複数の話者が存在する発話を見ていない。
これらの入力は、重複した音声と話者の変化のため、話者ダイアリゼーションに必然的に存在し、性能を劣化させる。
最初の問題を緩和するために、ダイアリゼーションシナリオをより良く模倣する話者検証評価プロトコルを生成する。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
1つのテクニックは重なり合った音声セグメントを生成し、もう1つは2人の話者が逐次発声するセグメントを生成する。
3つの最先端話者埋め込み抽出器を用いた実験結果から,両手法が有効であることが示された。
関連論文リスト
- Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Speaker Re-identification with Speaker Dependent Speech Enhancement [37.33388614967888]
本稿では,音声強調と話者認識を行う新しい手法を提案する。
提案手法は,実環境における話者認識評価を目的としたVoxceleb1データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-15T23:02:10Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。