論文の概要: Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.15265v1
- Date: Tue, 27 Jun 2023 07:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 14:20:34.183420
- Title: Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition
- Title(参考訳): 高齢者・変形性音声認識のためのコンバータASRシステムのハイパーパラメータ適応
- Authors: Tianzi Wang, Shoukang Hu, Jiajun Deng, Zengrui Jin, Mengzhe Geng, Yi
Wang, Helen Meng, Xunying Liu
- Abstract要約: ファインチューニングは、多くの非高齢および健康な音声事前訓練モデルを利用するためにしばしば用いられる。
本稿では,Librispeech corpus 上で事前学習した Conformer ASR システムのハイパーパラメータ適応について検討する。
- 参考スコア(独自算出の注目度): 64.9816313630768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic recognition of disordered and elderly speech remains highly
challenging tasks to date due to data scarcity. Parameter fine-tuning is often
used to exploit the large quantities of non-aged and healthy speech pre-trained
models, while neural architecture hyper-parameters are set using expert
knowledge and remain unchanged. This paper investigates hyper-parameter
adaptation for Conformer ASR systems that are pre-trained on the Librispeech
corpus before being domain adapted to the DementiaBank elderly and UASpeech
dysarthric speech datasets. Experimental results suggest that hyper-parameter
adaptation produced word error rate (WER) reductions of 0.45% and 0.67% over
parameter-only fine-tuning on DBank and UASpeech tasks respectively. An
intuitive correlation is found between the performance improvements by
hyper-parameter domain adaptation and the relative utterance length ratio
between the source and target domain data.
- Abstract(参考訳): 不規則・高齢の音声の自動認識は、データ不足のため、これまで非常に困難だった課題である。
パラメータの微調整は、多くの非高齢および健全な音声事前訓練モデルを利用するためにしばしば用いられるが、ニューラルアーキテクチャのハイパーパラメータは専門家の知識を用いて設定され、変化しない。
本稿では,認知症バンク高齢者およびuaspeech dysarthric speech datasetに適応する前,librispeechコーパスで事前学習された適合型asrシステムのハイパーパラメータ適応について検討する。
実験結果から, DBankおよびUASpeechタスクにおけるパラメータのみの微調整よりも, ワードエラー率(WER)が0.45%, 0.67%低下することが示唆された。
ハイパーパラメータ領域適応による性能改善と、ソースとターゲット領域データ間の相対発話長比との間には、直感的な相関関係がある。
関連論文リスト
- R+R:Understanding Hyperparameter Effects in DP-SGD [3.0668784884950235]
DP-SGDはプライバシー保護機械学習の標準的な最適化アルゴリズムである。
プライベートでない学習アプローチに比べて、パフォーマンスの低いアプローチでは、依然として一般的な課題である。
論文 参考訳(メタデータ) (2024-11-04T12:56:35Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Hypernetworks for Personalizing ASR to Atypical Speech [7.486694572792521]
メタ学習型ハイパーネットワークを用いて,多種多様な非定型音声特性に対して,高度に個別化された発話レベル適応を生成する。
ハイパーネットは,全パラメータ予算の0.1%を用いて,WERの相対的な75.2%削減を維持しつつ,分布外話者よりも一般化されていることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:39:00Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Personalized Adversarial Data Augmentation for Dysarthric and Elderly
Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。
GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。
LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文 参考訳(メタデータ) (2022-05-13T04:29:49Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。