論文の概要: Generation of Speaker Representations Using Heterogeneous Training Batch
Assembly
- arxiv url: http://arxiv.org/abs/2203.16646v1
- Date: Wed, 30 Mar 2022 19:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 11:05:49.906650
- Title: Generation of Speaker Representations Using Heterogeneous Training Batch
Assembly
- Title(参考訳): 不均質な訓練バッチアセンブリを用いた話者表現の生成
- Authors: Yu-Huai Peng, Hung-Shin Lee, Pin-Tuan Huang, Hsin-Min Wang
- Abstract要約: 本稿では,CNNに基づく話者モデリング手法を提案する。
トレーニングデータを一組のセグメントにランダムに合成的に拡張する。
各セグメントには、その話者占有率に基づいてソフトラベルが課される。
- 参考スコア(独自算出の注目度): 16.534380339042087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In traditional speaker diarization systems, a well-trained speaker model is a
key component to extract representations from consecutive and partially
overlapping segments in a long speech session. To be more consistent with the
back-end segmentation and clustering, we propose a new CNN-based speaker
modeling scheme, which takes into account the heterogeneity of the speakers in
each training segment and batch. We randomly and synthetically augment the
training data into a set of segments, each of which contains more than one
speaker and some overlapping parts. A soft label is imposed on each segment
based on its speaker occupation ratio, and the standard cross entropy loss is
implemented in model training. In this way, the speaker model should have the
ability to generate a geometrically meaningful embedding for each multi-speaker
segment. Experimental results show that our system is superior to the baseline
system using x-vectors in two speaker diarization tasks. In the CALLHOME task
trained on the NIST SRE and Switchboard datasets, our system achieves a
relative reduction of 12.93% in DER. In Track 2 of CHiME-6, our system provides
13.24%, 12.60%, and 5.65% relative reductions in DER, JER, and WER,
respectively.
- Abstract(参考訳): 従来の話者ダイアリゼーションシステムにおいて、十分に訓練された話者モデルは、長い音声セッションにおいて連続的および部分的に重なるセグメントから表現を抽出するキーコンポーネントである。
バックエンドセグメンテーションとクラスタリングをより一貫性のあるものにするため、各トレーニングセグメントとバッチにおける話者の多様性を考慮した新しいcnnベースの話者モデリング手法を提案する。
我々は、トレーニングデータをランダムに合成して、複数の話者といくつかの重複部分を含む一連のセグメントに拡張する。
話者占有率に基づいて各セグメントにソフトラベルを課し、モデルトレーニングにおいて標準クロスエントロピー損失を実施する。
このように、話者モデルは、各マルチスピーカーセグメントに対して幾何学的に意味のある埋め込みを生成する能力を持つべきである。
実験の結果,2つの話者ダイアリゼーションタスクにおいて,xベクトルを用いたベースラインシステムよりも優れていることがわかった。
NIST SRE と Switchboard のデータセットに基づいて訓練された CALLHOME タスクにおいて,本システムは DER の相対減少率 12.93% を達成する。
CHiME-6のトラック2では, DER, JER, WERの相対減少率は13.24%, 12.60%, 5.65%であった。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - High-resolution embedding extractor for speaker diarisation [15.392429990363492]
本研究では,高分解能埋込抽出器(HEE)と呼ばれる新しい埋込抽出器アーキテクチャを提案する。
HEEは機能マップ抽出器とエンハンサーで構成されており、自己認識機構を備えたエンハンサーが成功の鍵となる。
4つの公開データセットを含む5つの評価セットの実験を通じて、提案したHEEは、各評価セットに対して少なくとも10%の改善を示す。
論文 参考訳(メタデータ) (2022-11-08T07:41:18Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Multi-scale Speaker Diarization with Dynamic Scale Weighting [14.473173007997751]
マルチスケールダイアリゼーションデコーダに基づく,より高度なマルチスケールダイアリゼーションシステムを提案する。
提案システムでは,CALLHOMEデータセットとAMI MixHeadsetデータセットに対して,それぞれ3.92%,1.05%のダイアリゼーション誤差率で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T01:26:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Combination of Deep Speaker Embeddings for Diarisation [9.053645441056256]
本稿では、異なるNN成分を持つシステムから派生した複数の相補的なd-ベクターの組み合わせにより、c-ベクター法を提案する。
本稿では,ニューラルネットワークを用いた単一パス話者ダイアリゼーションパイプラインを提案する。
挑戦的なAMIとNIST RT05データセットについて実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2020-10-22T20:16:36Z) - Speaker diarization with session-level speaker embedding refinement
using graph neural networks [26.688724154619504]
話者ダイアリゼーション問題に対するグラフニューラルネットワーク(GNN)の最初の利用法として,GNNを用いて話者埋め込みを局所的に洗練する手法を提案する。
事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。
改良された話者埋め込みのクラスタリング性能は,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2020-05-22T19:52:51Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。