論文の概要: Bayesian Learning for Deep Neural Network Adaptation
- arxiv url: http://arxiv.org/abs/2012.07460v1
- Date: Mon, 14 Dec 2020 12:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 01:31:17.337631
- Title: Bayesian Learning for Deep Neural Network Adaptation
- Title(参考訳): ディープニューラルネットワーク適応のためのベイズ学習
- Authors: Xurong Xie, Xunying Liu, Tan Lee, Lan Wang
- Abstract要約: 音声認識システムにおける重要な課題は、トレーニングと評価データのミスマッチを減らすことである。
モデルに基づく話者適応アプローチは、しばしば十分な量のターゲット話者データを必要とする。
話者レベルのデータが限られていると、話者適応は過剰フィットし、一般化が悪くなります。
- 参考スコア(独自算出の注目度): 73.74387489237012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key task for speech recognition systems is to reduce the mismatch between
the training and evaluation data that is often attributable to speaker
differences. To this end, speaker adaptation techniques play a vital role to
reduce the mismatch. Model-based speaker adaptation approaches often require
sufficient amounts of target speaker data to ensure robustness. When the amount
of speaker level data is limited, speaker adaptation is prone to overfitting
and poor generalization. To address the issue, this paper proposes a full
Bayesian learning based DNN speaker adaptation framework to model
speaker-dependent (SD) parameter uncertainty given limited speaker specific
adaptation data. This framework is investigated in three forms of model based
DNN adaptation techniques: Bayesian learning of hidden unit contributions
(BLHUC), Bayesian parameterized activation functions (BPAct), and Bayesian
hidden unit bias vectors (BHUB). In all three Bayesian adaptation methods,
deterministic SD parameters are replaced by latent variable posterior
distributions to be learned for each speaker, whose parameters are efficiently
estimated using a variational inference based approach. Experiments conducted
on 300-hour speed perturbed Switchboard corpus trained LF-MMI factored
TDNN/CNN-TDNN systems featuring i-vector speaker adaptation suggest the
proposed Bayesian adaptation approaches consistently outperform the adapted
systems using deterministic parameters on the NIST Hub5'00 and RT03 evaluation
sets in both unsupervised test time speaker adaptation and speaker adaptive
training. The efficacy of the proposed Bayesian adaptation techniques is
further demonstrated in a comparison against the state-of-the-art performance
obtained on the same task using the most recent hybrid and end-to-end systems
reported in the literature.
- Abstract(参考訳): 音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
この目的のために、話者適応技術はミスマッチを減らすために重要な役割を果たす。
モデルに基づく話者適応手法は、堅牢性を確保するために十分な量のターゲット話者データを必要とすることが多い。
話者レベルのデータが限られている場合、話者適応は過度に適合し、一般化が不十分である。
本稿では,話者固有の適応データから話者依存(sd)パラメータの不確かさをモデル化するために,ベイズ学習に基づくdnn話者適応フレームワークを提案する。
この枠組みは,隠れ単位寄与のベイズ的学習(BLHUC),ベイズ的パラメータ化活性化関数(BPAct),ベイズ的隠れ単位バイアスベクトル(BHUB)の3種類のモデルベースDNN適応手法で検討されている。
3つのベイズ適応法において、決定論的sdパラメータは各話者に対して学習される潜在変数後続分布に置き換えられ、そのパラメータは変分推論に基づくアプローチにより効率的に推定される。
提案手法は,NIST Hub5'00 と RT03 の定性パラメータを用いて,教師なし試験時間話者適応と話者適応訓練の両方において,適応システムより一貫して優れていることを示す。
提案手法の有効性は,本論文で報告されている最新のハイブリッドシステムとエンド・ツー・エンドシステムを用いて,同一タスクで得られた最新性能との比較によりさらに実証された。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Factorised Speaker-environment Adaptive Training of Conformer Speech
Recognition Systems [31.813788489512394]
本稿では,Conformer ASRモデルに対する話者環境適応学習とテスト時間適応手法を提案する。
300時間WHAMノイズ劣化データの実験では、分解適応がベースラインを一貫して上回ることが示唆された。
さらに分析した結果,提案手法は未知の話者環境に迅速に適応できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-26T11:32:05Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文 参考訳(メタデータ) (2022-01-19T22:14:49Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - Adapting Speaker Embeddings for Speaker Diarisation [30.383712356205084]
本論文の目的は,話者ダイアリゼーションの問題を解決するための話者埋め込みの適応である。
本研究では,話者埋め込みをダイアリゼーションに適合させるために,次元の縮小,注意に基づく埋め込み集約,非音声クラスタリングという3つの手法を提案する。
その結果,3つの手法はすべて,ベースライン上のダイアリゼーション誤差率で平均25.07%の相対的改善を達成するダイアリゼーションシステムの性能に正の貢献をすることがわかった。
論文 参考訳(メタデータ) (2021-04-07T03:04:47Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。