論文の概要: Variable frame rate-based data augmentation to handle speaking-style
variability for automatic speaker verification
- arxiv url: http://arxiv.org/abs/2008.03616v1
- Date: Sat, 8 Aug 2020 22:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:32:28.260270
- Title: Variable frame rate-based data augmentation to handle speaking-style
variability for automatic speaker verification
- Title(参考訳): 話者自動検証のためのフレームレートに基づく可変データ拡張
- Authors: Amber Afshan, Jinxi Guo, Soo Jin Park, Vijay Ravi, Alan McCree, and
Abeer Alwan
- Abstract要約: UCLA話者変量データベースを用いて,話者自動検証における発話型変量の影響について検討した。
PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーに基づく可変フレームレート手法を提案する。
- 参考スコア(独自算出の注目度): 23.970866246001652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effects of speaking-style variability on automatic speaker verification
were investigated using the UCLA Speaker Variability database which comprises
multiple speaking styles per speaker. An x-vector/PLDA (probabilistic linear
discriminant analysis) system was trained with the SRE and Switchboard
databases with standard augmentation techniques and evaluated with utterances
from the UCLA database. The equal error rate (EER) was low when enrollment and
test utterances were of the same style (e.g., 0.98% and 0.57% for read and
conversational speech, respectively), but it increased substantially when
styles were mismatched between enrollment and test utterances. For instance,
when enrolled with conversation utterances, the EER increased to 3.03%, 2.96%
and 22.12% when tested on read, narrative, and pet-directed speech,
respectively. To reduce the effect of style mismatch, we propose an
entropy-based variable frame rate technique to artificially generate
style-normalized representations for PLDA adaptation. The proposed system
significantly improved performance. In the aforementioned conditions, the EERs
improved to 2.69% (conversation -- read), 2.27% (conversation -- narrative),
and 18.75% (pet-directed -- read). Overall, the proposed technique performed
comparably to multi-style PLDA adaptation without the need for training data in
different speaking styles per speaker.
- Abstract(参考訳): 話者ごとの複数の話し方を含むUCLA話者変動データベースを用いて,発話スタイルの変動が自動話者検証に与える影響を検討した。
X-vector/PLDA (probabilistic linear discriminant analysis) システムは,標準拡張技術を用いてSREおよびSwitchboardデータベースを用いて訓練し,UCLAデータベースからの発話で評価した。
入会時と試験発話時では同等の誤り率(eer)が低かった(例:読解率0.98%、会話発話率0.57%)が、入会と試験発話のスタイルが一致しない場合には大幅に増加した。
例えば、会話発話を登録すると、eerはそれぞれ3.03%、読み上げ、語り、ペット向け音声でテストすると2.96%、22.12%に増加した。
スタイルミスマッチの効果を低減するため,PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーベースの可変フレームレート手法を提案する。
提案システムは性能を著しく向上させた。
上記の条件下では、EERは2.69%(会話 -- 読み)、2.27%(会話 -- 物語)、18.75%(ペット指向 -- 読み)に改善された。
総じて,提案手法は,話者毎に異なる発話スタイルでデータをトレーニングすることなく,マルチスタイルplda適応に比較可能であった。
関連論文リスト
- SKQVC: One-Shot Voice Conversion by K-Means Quantization with Self-Supervised Speech Representations [12.423959479216895]
ワンショット音声変換(ワンショット音声変換、英: One-shot Voice conversion、VC)は、単一の話者発話のみを用いて、任意の2つの話者間の変換を可能にする方法である。
K平均量子化(KQ)と自己教師付き学習(SSL)機能を利用した最近の研究は、音声からコンテンツ情報をキャプチャできることを示した。
本稿では,SSLの特徴と音声属性を利用した,シンプルで効果的なワンショットVCモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T07:14:26Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Learning from human perception to improve automatic speaker verification
in style-mismatched conditions [21.607777746331998]
我々の以前の実験は、人間と機械が話者識別に異なるアプローチを採っていることを示している。
我々は、人間の知覚から学んだ洞察を用いて、「CllrCE損失」と呼ぶ新しい訓練損失関数を設計する。
CllrCE損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
論文 参考訳(メタデータ) (2022-06-28T01:24:38Z) - Attention-based conditioning methods using variable frame rate for
style-robust speaker verification [21.607777746331998]
そこで本研究では,テキスト非依存話者検証において,発話スタイルの変動に頑健な話者埋め込みを抽出する手法を提案する。
自己アテンション層の外部条件ベクトルとして,エントロピーに基づく可変フレームレートベクトルを提案する。
論文 参考訳(メタデータ) (2022-06-28T01:14:09Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。