論文の概要: Leveraging speaker attribute information using multi task learning for
speaker verification and diarization
- arxiv url: http://arxiv.org/abs/2010.14269v2
- Date: Fri, 23 Apr 2021 16:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:27:26.914963
- Title: Leveraging speaker attribute information using multi task learning for
speaker verification and diarization
- Title(参考訳): 話者照合とダイアリゼーションのためのマルチタスク学習を用いた話者属性情報活用
- Authors: Chau Luu, Peter Bell, Steve Renals
- Abstract要約: 対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 33.60058873783114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep speaker embeddings have become the leading method for encoding speaker
identity in speaker recognition tasks. The embedding space should ideally
capture the variations between all possible speakers, encoding the multiple
acoustic aspects that make up a speaker's identity, whilst being robust to
non-speaker acoustic variation. Deep speaker embeddings are normally trained
discriminatively, predicting speaker identity labels on the training data. We
hypothesise that additionally predicting speaker-related auxiliary variables --
such as age and nationality -- may yield representations that are better able
to generalise to unseen speakers. We propose a framework for making use of
auxiliary label information, even when it is only available for speech corpora
mismatched to the target application. On a test set of US Supreme Court
recordings, we show that by leveraging two additional forms of speaker
attribute information derived respectively from the matched training data, and
VoxCeleb corpus, we improve the performance of our deep speaker embeddings for
both verification and diarization tasks, achieving a relative improvement of
26.2% in DER and 6.7% in EER compared to baselines using speaker labels only.
This improvement is obtained despite the auxiliary labels having been scraped
from the web and being potentially noisy.
- Abstract(参考訳): ディープスピーカー埋め込みは、話者認識タスクにおいて、話者識別を符号化する主要な方法となっている。
埋め込み空間は、可能話者間の変動を理想的に捉え、話者の同一性を構成する複数の音響的側面を符号化し、非話者音響的変動に対して頑健である。
ディープスピーカー埋め込みは通常、訓練データに基づいて話者識別ラベルを予測する識別的に訓練される。
さらに、年齢や国籍などの話者関連補助変数を予測すれば、見当たらない話者に一般化できる表現が得られるという仮説を立てている。
対象アプリケーションに不適合な音声コーパスに対してのみ利用可能であっても,補助ラベル情報を利用するためのフレームワークを提案する。
合衆国最高裁判所の記録では,一致した訓練データから得られた2種類の話者属性情報とVoxCelebコーパスを用いて,検証作業とダイアリゼーション作業の両方における深層話者埋め込みの性能を向上し,話者ラベルのみを用いたベースラインと比較して,DERの26.2%,EERの6.7%の相対的な改善を実現した。
この改善は、補助ラベルがウェブから削られ、潜在的に騒がしいにもかかわらず得られる。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - Improving on-device speaker verification using federated learning with
privacy [5.321241042620525]
話者特性に関する情報は、話者認識精度を向上させる側情報として有用である。
本稿では,プライバシ保護学習が話者認証システムをどのように改善するかを検討する。
論文 参考訳(メタデータ) (2020-08-06T13:37:14Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。