論文の概要: Bayesian Learning for Deep Neural Network Adaptation
- arxiv url: http://arxiv.org/abs/2012.07460v1
- Date: Mon, 14 Dec 2020 12:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 01:31:17.337631
- Title: Bayesian Learning for Deep Neural Network Adaptation
- Title(参考訳): ディープニューラルネットワーク適応のためのベイズ学習
- Authors: Xurong Xie, Xunying Liu, Tan Lee, Lan Wang
- Abstract要約: 音声認識システムにおける重要な課題は、トレーニングと評価データのミスマッチを減らすことである。
モデルに基づく話者適応アプローチは、しばしば十分な量のターゲット話者データを必要とする。
話者レベルのデータが限られていると、話者適応は過剰フィットし、一般化が悪くなります。
- 参考スコア(独自算出の注目度): 73.74387489237012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key task for speech recognition systems is to reduce the mismatch between
the training and evaluation data that is often attributable to speaker
differences. To this end, speaker adaptation techniques play a vital role to
reduce the mismatch. Model-based speaker adaptation approaches often require
sufficient amounts of target speaker data to ensure robustness. When the amount
of speaker level data is limited, speaker adaptation is prone to overfitting
and poor generalization. To address the issue, this paper proposes a full
Bayesian learning based DNN speaker adaptation framework to model
speaker-dependent (SD) parameter uncertainty given limited speaker specific
adaptation data. This framework is investigated in three forms of model based
DNN adaptation techniques: Bayesian learning of hidden unit contributions
(BLHUC), Bayesian parameterized activation functions (BPAct), and Bayesian
hidden unit bias vectors (BHUB). In all three Bayesian adaptation methods,
deterministic SD parameters are replaced by latent variable posterior
distributions to be learned for each speaker, whose parameters are efficiently
estimated using a variational inference based approach. Experiments conducted
on 300-hour speed perturbed Switchboard corpus trained LF-MMI factored
TDNN/CNN-TDNN systems featuring i-vector speaker adaptation suggest the
proposed Bayesian adaptation approaches consistently outperform the adapted
systems using deterministic parameters on the NIST Hub5'00 and RT03 evaluation
sets in both unsupervised test time speaker adaptation and speaker adaptive
training. The efficacy of the proposed Bayesian adaptation techniques is
further demonstrated in a comparison against the state-of-the-art performance
obtained on the same task using the most recent hybrid and end-to-end systems
reported in the literature.
- Abstract(参考訳): 音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
この目的のために、話者適応技術はミスマッチを減らすために重要な役割を果たす。
モデルに基づく話者適応手法は、堅牢性を確保するために十分な量のターゲット話者データを必要とすることが多い。
話者レベルのデータが限られている場合、話者適応は過度に適合し、一般化が不十分である。
本稿では,話者固有の適応データから話者依存(sd)パラメータの不確かさをモデル化するために,ベイズ学習に基づくdnn話者適応フレームワークを提案する。
この枠組みは,隠れ単位寄与のベイズ的学習(BLHUC),ベイズ的パラメータ化活性化関数(BPAct),ベイズ的隠れ単位バイアスベクトル(BHUB)の3種類のモデルベースDNN適応手法で検討されている。
3つのベイズ適応法において、決定論的sdパラメータは各話者に対して学習される潜在変数後続分布に置き換えられ、そのパラメータは変分推論に基づくアプローチにより効率的に推定される。
提案手法は,NIST Hub5'00 と RT03 の定性パラメータを用いて,教師なし試験時間話者適応と話者適応訓練の両方において,適応システムより一貫して優れていることを示す。
提案手法の有効性は,本論文で報告されている最新のハイブリッドシステムとエンド・ツー・エンドシステムを用いて,同一タスクで得られた最新性能との比較によりさらに実証された。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Factorised Speaker-environment Adaptive Training of Conformer Speech
Recognition Systems [31.813788489512394]
本稿では,Conformer ASRモデルに対する話者環境適応学習とテスト時間適応手法を提案する。
300時間WHAMノイズ劣化データの実験では、分解適応がベースラインを一貫して上回ることが示唆された。
さらに分析した結果,提案手法は未知の話者環境に迅速に適応できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-26T11:32:05Z) - ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for
Low-Resource TTS Adaptation [18.84413550077318]
本研究では,異なる話者の独特の特徴を学習するために「アダプタの混合」手法を提案する。
提案手法は,話者選好試験において5%の顕著な改善がみられ,ベースラインよりも優れていた。
これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。
論文 参考訳(メタデータ) (2023-05-29T11:39:01Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文 参考訳(メタデータ) (2022-01-19T22:14:49Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - BOFFIN TTS: Few-Shot Speaker Adaptation by Bayesian Optimization [15.698168668305001]
本稿では,少数話者適応のための新しいアプローチであるBOFFIN TTSを提案する。
BOFFIN TTSは10分以内の音声で新しい話者を合成できることを示す。
論文 参考訳(メタデータ) (2020-02-04T16:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。