論文の概要: Compositional embedding models for speaker identification and
diarization with simultaneous speech from 2+ speakers
- arxiv url: http://arxiv.org/abs/2010.11803v2
- Date: Wed, 10 Feb 2021 15:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:43:57.321117
- Title: Compositional embedding models for speaker identification and
diarization with simultaneous speech from 2+ speakers
- Title(参考訳): 2+話者同時発話による話者識別とダイアリゼーションのための合成埋め込みモデル
- Authors: Zeqian Li, Jacob Whitehill
- Abstract要約: 2人以上の話者で重なり合う音声を処理できる新しい話者ダイアリゼーション法を提案する。
本手法は, 組成埋め込みに基づく。
- 参考スコア(独自算出の注目度): 25.280566939206714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new method for speaker diarization that can handle overlapping
speech with 2+ people. Our method is based on compositional embeddings [1]:
Like standard speaker embedding methods such as x-vector [2], compositional
embedding models contain a function f that separates speech from different
speakers. In addition, they include a composition function g to compute
set-union operations in the embedding space so as to infer the set of speakers
within the input audio. In an experiment on multi-person speaker identification
using synthesized LibriSpeech data, the proposed method outperforms traditional
embedding methods that are only trained to separate single speakers (not
speaker sets). In a speaker diarization experiment on the AMI Headset Mix
corpus, we achieve state-of-the-art accuracy (DER=22.93%), slightly higher than
the previous best result (23.82% from [3]).
- Abstract(参考訳): 2人以上の話者で重なり合う音声を処理できる新しい話者ダイアリゼーション法を提案する。
x-vector [2]のような標準的な話者埋め込み法と同様に、構成埋め込みモデルは、異なる話者から音声を分離する関数fを含む。
さらに、入力オーディオ内の話者の集合を推測するために、埋め込み空間における集合統一操作を演算する合成関数gを含む。
合成librispeechデータを用いた多人数話者識別実験において,提案手法は,単一話者(話者集合ではなく)を分離するように訓練された従来の埋め込み手法よりも優れている。
AMIヘッドセット混合コーパスの話者ダイアリゼーション実験において, 従来の最良結果よりもわずかに高い最先端の精度(DER=22.93%)を達成する([3]から23.82%)。
関連論文リスト
- Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS [36.023566245506046]
マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T11:08:05Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z) - Supervised Speaker Embedding De-Mixing in Two-Speaker Environment [37.27421131374047]
音源分離のような信号空間で2つの話者信号を分離する代わりに,話者埋め込み型デミックス方式を提案する。
提案手法は、埋め込み空間における2つの話者信号と異なる話者特性を分離する。
論文 参考訳(メタデータ) (2020-01-14T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。