論文の概要: Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.15265v1
- Date: Tue, 27 Jun 2023 07:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 14:20:34.183420
- Title: Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition
- Title(参考訳): 高齢者・変形性音声認識のためのコンバータASRシステムのハイパーパラメータ適応
- Authors: Tianzi Wang, Shoukang Hu, Jiajun Deng, Zengrui Jin, Mengzhe Geng, Yi
Wang, Helen Meng, Xunying Liu
- Abstract要約: ファインチューニングは、多くの非高齢および健康な音声事前訓練モデルを利用するためにしばしば用いられる。
本稿では,Librispeech corpus 上で事前学習した Conformer ASR システムのハイパーパラメータ適応について検討する。
- 参考スコア(独自算出の注目度): 64.9816313630768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic recognition of disordered and elderly speech remains highly
challenging tasks to date due to data scarcity. Parameter fine-tuning is often
used to exploit the large quantities of non-aged and healthy speech pre-trained
models, while neural architecture hyper-parameters are set using expert
knowledge and remain unchanged. This paper investigates hyper-parameter
adaptation for Conformer ASR systems that are pre-trained on the Librispeech
corpus before being domain adapted to the DementiaBank elderly and UASpeech
dysarthric speech datasets. Experimental results suggest that hyper-parameter
adaptation produced word error rate (WER) reductions of 0.45% and 0.67% over
parameter-only fine-tuning on DBank and UASpeech tasks respectively. An
intuitive correlation is found between the performance improvements by
hyper-parameter domain adaptation and the relative utterance length ratio
between the source and target domain data.
- Abstract(参考訳): 不規則・高齢の音声の自動認識は、データ不足のため、これまで非常に困難だった課題である。
パラメータの微調整は、多くの非高齢および健全な音声事前訓練モデルを利用するためにしばしば用いられるが、ニューラルアーキテクチャのハイパーパラメータは専門家の知識を用いて設定され、変化しない。
本稿では,認知症バンク高齢者およびuaspeech dysarthric speech datasetに適応する前,librispeechコーパスで事前学習された適合型asrシステムのハイパーパラメータ適応について検討する。
実験結果から, DBankおよびUASpeechタスクにおけるパラメータのみの微調整よりも, ワードエラー率(WER)が0.45%, 0.67%低下することが示唆された。
ハイパーパラメータ領域適応による性能改善と、ソースとターゲット領域データ間の相対発話長比との間には、直感的な相関関係がある。
関連論文リスト
- Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。