論文の概要: Factorised Speaker-environment Adaptive Training of Conformer Speech
Recognition Systems
- arxiv url: http://arxiv.org/abs/2306.14608v1
- Date: Mon, 26 Jun 2023 11:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:56:42.370878
- Title: Factorised Speaker-environment Adaptive Training of Conformer Speech
Recognition Systems
- Title(参考訳): 適合型音声認識システムの因子化話者環境適応学習
- Authors: Jiajun Deng, Guinan Li, Xurong Xie, Zengrui Jin, Mingyu Cui, Tianzi
Wang, Shujie Hu, Mengzhe Geng, Xunying Liu
- Abstract要約: 本稿では,Conformer ASRモデルに対する話者環境適応学習とテスト時間適応手法を提案する。
300時間WHAMノイズ劣化データの実験では、分解適応がベースラインを一貫して上回ることが示唆された。
さらに分析した結果,提案手法は未知の話者環境に迅速に適応できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 31.813788489512394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rich sources of variability in natural speech present significant challenges
to current data intensive speech recognition technologies. To model both
speaker and environment level diversity, this paper proposes a novel Bayesian
factorised speaker-environment adaptive training and test time adaptation
approach for Conformer ASR models. Speaker and environment level
characteristics are separately modeled using compact hidden output transforms,
which are then linearly or hierarchically combined to represent any
speaker-environment combination. Bayesian learning is further utilized to model
the adaptation parameter uncertainty. Experiments on the 300-hr WHAM noise
corrupted Switchboard data suggest that factorised adaptation consistently
outperforms the baseline and speaker label only adapted Conformers by up to
3.1% absolute (10.4% relative) word error rate reductions. Further analysis
shows the proposed method offers potential for rapid adaption to unseen
speaker-environment conditions.
- Abstract(参考訳): 自然言語の多様性の豊富な情報源は、現在のデータ集約音声認識技術に重大な課題をもたらす。
話者レベルの多様性と環境レベルの多様性の両方をモデル化するために,コンフォーマーASRモデルの話者環境適応トレーニングとテスト時間適応アプローチを提案する。
話者レベル特性と環境レベル特性は、コンパクトな隠れ出力変換を用いて別々にモデル化され、任意の話者環境の組み合わせを表現するために線形または階層的に結合される。
ベイズ学習はさらに適応パラメータの不確かさのモデル化に利用されている。
300-hrのWHAMノイズ劣化データの実験では、分解された適応はベースラインよりも一貫して優れており、話者ラベルはコンフォーマーを最大3.1%の絶対(10.4%)の単語誤り率で適合させる。
さらに, 提案手法は, 未知の話者環境に迅速に適応する可能性を示す。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Hypernetworks for Personalizing ASR to Atypical Speech [7.486694572792521]
メタ学習型ハイパーネットワークを用いて,多種多様な非定型音声特性に対して,高度に個別化された発話レベル適応を生成する。
ハイパーネットは,全パラメータ予算の0.1%を用いて,WERの相対的な75.2%削減を維持しつつ,分布外話者よりも一般化されていることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:39:00Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文 参考訳(メタデータ) (2022-01-19T22:14:49Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。