論文の概要: Bayesian Learning for Deep Neural Network Adaptation
- arxiv url: http://arxiv.org/abs/2012.07460v4
- Date: Fri, 14 Jun 2024 08:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 22:09:03.018247
- Title: Bayesian Learning for Deep Neural Network Adaptation
- Title(参考訳): ディープニューラルネットワーク適応のためのベイズ学習
- Authors: Xurong Xie, Xunying Liu, Tan Lee, Lan Wang,
- Abstract要約: 音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.70991105736059
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A key task for speech recognition systems is to reduce the mismatch between training and evaluation data that is often attributable to speaker differences. Speaker adaptation techniques play a vital role to reduce the mismatch. Model-based speaker adaptation approaches often require sufficient amounts of target speaker data to ensure robustness. When the amount of speaker level data is limited, speaker adaptation is prone to overfitting and poor generalization. To address the issue, this paper proposes a full Bayesian learning based DNN speaker adaptation framework to model speaker-dependent (SD) parameter uncertainty given limited speaker specific adaptation data. This framework is investigated in three forms of model based DNN adaptation techniques: Bayesian learning of hidden unit contributions (BLHUC), Bayesian parameterized activation functions (BPAct), and Bayesian hidden unit bias vectors (BHUB). In the three methods, deterministic SD parameters are replaced by latent variable posterior distributions for each speaker, whose parameters are efficiently estimated using a variational inference based approach. Experiments conducted on 300-hour speed perturbed Switchboard corpus trained LF-MMI TDNN/CNN-TDNN systems suggest the proposed Bayesian adaptation approaches consistently outperform the deterministic adaptation on the NIST Hub5'00 and RT03 evaluation sets. When using only the first five utterances from each speaker as adaptation data, significant word error rate reductions up to 1.4% absolute (7.2% relative) were obtained on the CallHome subset. The efficacy of the proposed Bayesian adaptation techniques is further demonstrated in a comparison against the state-of-the-art performance obtained on the same task using the most recent systems reported in the literature.
- Abstract(参考訳): 音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
話者適応技術はミスマッチを減らすために重要な役割を果たす。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
話者レベルのデータが限られている場合、話者適応は過度に適合し、一般化が不十分である。
本稿では,限られた話者固有適応データに対して,話者依存(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づく完全なDNN話者適応フレームワークを提案する。
この枠組みは,隠れ単位寄与のベイズ的学習(BLHUC),ベイズ的パラメータ化活性化関数(BPAct),ベイズ的隠れ単位バイアスベクトル(BHUB)の3種類のモデルベースDNN適応手法で検討されている。
これら3つの方法において、決定論的SDパラメータは各話者の潜在変数後続分布に置き換えられ、そのパラメータは変動推論に基づくアプローチを用いて効率的に推定される。
LF-MMI TDNN/CNN-TDNNシステムで訓練された300時間速度摂動型スイッチボードコーパスの実験により、提案されたベイズ適応アプローチは、NIST Hub5'00とRT03の評価セットに対する決定論的適応よりも一貫して優れていることが示唆された。
各話者からの最初の5つの発声のみを適応データとして用いた場合、CallHomeサブセットで単語誤り率を最大1.4%(7.2%)まで下げた。
ベイズ適応手法の有効性は,本論文で報告された最新のシステムを用いて,同課題で得られた最先端技術との比較においてさらに実証された。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Factorised Speaker-environment Adaptive Training of Conformer Speech
Recognition Systems [31.813788489512394]
本稿では,Conformer ASRモデルに対する話者環境適応学習とテスト時間適応手法を提案する。
300時間WHAMノイズ劣化データの実験では、分解適応がベースラインを一貫して上回ることが示唆された。
さらに分析した結果,提案手法は未知の話者環境に迅速に適応できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-26T11:32:05Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文 参考訳(メタデータ) (2022-01-19T22:14:49Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - Adapting Speaker Embeddings for Speaker Diarisation [30.383712356205084]
本論文の目的は,話者ダイアリゼーションの問題を解決するための話者埋め込みの適応である。
本研究では,話者埋め込みをダイアリゼーションに適合させるために,次元の縮小,注意に基づく埋め込み集約,非音声クラスタリングという3つの手法を提案する。
その結果,3つの手法はすべて,ベースライン上のダイアリゼーション誤差率で平均25.07%の相対的改善を達成するダイアリゼーションシステムの性能に正の貢献をすることがわかった。
論文 参考訳(メタデータ) (2021-04-07T03:04:47Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。