論文の概要: Variable frame rate-based data augmentation to handle speaking-style
variability for automatic speaker verification
- arxiv url: http://arxiv.org/abs/2008.03616v1
- Date: Sat, 8 Aug 2020 22:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:32:28.260270
- Title: Variable frame rate-based data augmentation to handle speaking-style
variability for automatic speaker verification
- Title(参考訳): 話者自動検証のためのフレームレートに基づく可変データ拡張
- Authors: Amber Afshan, Jinxi Guo, Soo Jin Park, Vijay Ravi, Alan McCree, and
Abeer Alwan
- Abstract要約: UCLA話者変量データベースを用いて,話者自動検証における発話型変量の影響について検討した。
PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーに基づく可変フレームレート手法を提案する。
- 参考スコア(独自算出の注目度): 23.970866246001652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effects of speaking-style variability on automatic speaker verification
were investigated using the UCLA Speaker Variability database which comprises
multiple speaking styles per speaker. An x-vector/PLDA (probabilistic linear
discriminant analysis) system was trained with the SRE and Switchboard
databases with standard augmentation techniques and evaluated with utterances
from the UCLA database. The equal error rate (EER) was low when enrollment and
test utterances were of the same style (e.g., 0.98% and 0.57% for read and
conversational speech, respectively), but it increased substantially when
styles were mismatched between enrollment and test utterances. For instance,
when enrolled with conversation utterances, the EER increased to 3.03%, 2.96%
and 22.12% when tested on read, narrative, and pet-directed speech,
respectively. To reduce the effect of style mismatch, we propose an
entropy-based variable frame rate technique to artificially generate
style-normalized representations for PLDA adaptation. The proposed system
significantly improved performance. In the aforementioned conditions, the EERs
improved to 2.69% (conversation -- read), 2.27% (conversation -- narrative),
and 18.75% (pet-directed -- read). Overall, the proposed technique performed
comparably to multi-style PLDA adaptation without the need for training data in
different speaking styles per speaker.
- Abstract(参考訳): 話者ごとの複数の話し方を含むUCLA話者変動データベースを用いて,発話スタイルの変動が自動話者検証に与える影響を検討した。
X-vector/PLDA (probabilistic linear discriminant analysis) システムは,標準拡張技術を用いてSREおよびSwitchboardデータベースを用いて訓練し,UCLAデータベースからの発話で評価した。
入会時と試験発話時では同等の誤り率(eer)が低かった(例:読解率0.98%、会話発話率0.57%)が、入会と試験発話のスタイルが一致しない場合には大幅に増加した。
例えば、会話発話を登録すると、eerはそれぞれ3.03%、読み上げ、語り、ペット向け音声でテストすると2.96%、22.12%に増加した。
スタイルミスマッチの効果を低減するため,PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーベースの可変フレームレート手法を提案する。
提案システムは性能を著しく向上させた。
上記の条件下では、EERは2.69%(会話 -- 読み)、2.27%(会話 -- 物語)、18.75%(ペット指向 -- 読み)に改善された。
総じて,提案手法は,話者毎に異なる発話スタイルでデータをトレーニングすることなく,マルチスタイルplda適応に比較可能であった。
関連論文リスト
- Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Factorised Speaker-environment Adaptive Training of Conformer Speech
Recognition Systems [31.813788489512394]
本稿では,Conformer ASRモデルに対する話者環境適応学習とテスト時間適応手法を提案する。
300時間WHAMノイズ劣化データの実験では、分解適応がベースラインを一貫して上回ることが示唆された。
さらに分析した結果,提案手法は未知の話者環境に迅速に適応できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-26T11:32:05Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Learning from human perception to improve automatic speaker verification
in style-mismatched conditions [21.607777746331998]
我々の以前の実験は、人間と機械が話者識別に異なるアプローチを採っていることを示している。
我々は、人間の知覚から学んだ洞察を用いて、「CllrCE損失」と呼ぶ新しい訓練損失関数を設計する。
CllrCE損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
論文 参考訳(メタデータ) (2022-06-28T01:24:38Z) - Attention-based conditioning methods using variable frame rate for
style-robust speaker verification [21.607777746331998]
そこで本研究では,テキスト非依存話者検証において,発話スタイルの変動に頑健な話者埋め込みを抽出する手法を提案する。
自己アテンション層の外部条件ベクトルとして,エントロピーに基づく可変フレームレートベクトルを提案する。
論文 参考訳(メタデータ) (2022-06-28T01:14:09Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Cross-speaker style transfer for text-to-speech using data augmentation [11.686745250628247]
音声変換によるデータ拡張を用いた音声合成(TTS)における話者間通信の問題点に対処する。
対象話者から中性非表現データのコーパスを持ち、異なる話者からの会話表現データをサポートすると仮定する。
提案した技術を、7つの言語にまたがる14の話者のセットにスケールすることで、結論付けます。
論文 参考訳(メタデータ) (2022-02-10T15:10:56Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。