論文の概要: Refining Automatic Speech Recognition System for older adults
- arxiv url: http://arxiv.org/abs/2011.08346v1
- Date: Tue, 17 Nov 2020 00:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 16:21:55.067870
- Title: Refining Automatic Speech Recognition System for older adults
- Title(参考訳): 高齢者のための自動音声認識システムの改良
- Authors: Liu Chen, Meysam Asgari
- Abstract要約: 社会的に孤立した高齢者(80歳以上)の認知障害のあるASRシステムを開発した。
成人のASRが対象人口に悪影響を及ぼすことを実験的に確認した。
我々は、モデルの中間情報を利用するための注意機構を活用することにより、システムをさらに改善する。
- 参考スコア(独自算出の注目度): 7.3709604810699085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building a high quality automatic speech recognition (ASR) system with
limited training data has been a challenging task particularly for a narrow
target population. Open-sourced ASR systems, trained on sufficient data from
adults, are susceptible on seniors' speech due to acoustic mismatch between
adults and seniors. With 12 hours of training data, we attempt to develop an
ASR system for socially isolated seniors (80+ years old) with possible
cognitive impairments. We experimentally identify that ASR for the adult
population performs poorly on our target population and transfer learning (TL)
can boost the system's performance. Standing on the fundamental idea of TL,
tuning model parameters, we further improve the system by leveraging an
attention mechanism to utilize the model's intermediate information. Our
approach achieves 1.58% absolute improvements over the TL model.
- Abstract(参考訳): 限られた訓練データを用いた高品質自動音声認識(ASR)システムの構築は、特に狭い対象者にとって困難な課題である。
成人の十分なデータに基づいてトレーニングされたオープンソースasrシステムは,成人と高齢者の音響的ミスマッチにより,高齢者の発話に影響を受けやすい。
12時間のトレーニングデータを用いて,認知障害のある社会的孤立高齢者(80歳以上)を対象としたASRシステムの開発を試みた。
我々は,成人のASRが対象人口に悪影響を及ぼし,伝達学習(TL)がシステムの性能を向上させることを実験的に確認した。
モデルパラメータをチューニングする TL の基本概念に基づいて,アテンション機構を活用して,モデルの中間情報を活用することにより,システムをさらに改良する。
我々のアプローチはtlモデルに対して1.58%の絶対的な改善を達成している。
関連論文リスト
- Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and
Dysarthric Speech Recognition [64.9816313630768]
ファインチューニングは、多くの非高齢および健康な音声事前訓練モデルを利用するためにしばしば用いられる。
本稿では,Librispeech corpus 上で事前学習した Conformer ASR システムのハイパーパラメータ適応について検討する。
論文 参考訳(メタデータ) (2023-06-27T07:49:35Z) - Improving Fairness and Robustness in End-to-End Speech Recognition
through unsupervised clustering [49.069298478971696]
エンド・ツー・エンドASRの公平性と堅牢性を改善するためのプライバシー保護手法を提案する。
公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出する。
モデル学習において,話者発話の埋め込みの代わりにクラスタIDを付加的な特徴として用いた。
論文 参考訳(メタデータ) (2023-06-06T21:13:08Z) - Automatic Severity Classification of Dysarthric speech by using
Self-supervised Model with Multi-task Learning [4.947423926765435]
マルチタスク学習と連動した自己教師付きモデルを用いて,変形性音声の自動重大度評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度分類と補助的自動音声認識(ASR)の2つのタスクで訓練される
本モデルでは,F1スコアの相対値が1.25%増加し,従来のベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:48:10Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - The NTNU System at the Interspeech 2020 Non-Native Children's Speech ASR
Challenge [13.232899176888575]
本稿では,ISCAのSIG-ChiLDグループによって支援された,2020年の非Native Children's Speech ASR Challengeについて述べる。
すべての参加者は、主催者が提供した音声とテキストのコーパスに基づいてシステムを開発することを制限された。
そこで我々は,CNN-TDNNFをベースとした音響モデル上にASRシステムを構築した。
論文 参考訳(メタデータ) (2020-05-18T02:51:26Z) - Semi-supervised ASR by End-to-end Self-training [18.725686837244265]
半教師付きASRのためのエンドツーエンドシステムを用いた自己学習手法を提案する。
我々は、現在モデルと教師なし発話のミニバッチ上に擬似ラベルを反復的に生成し、擬似ラベルを使用して教師付きデータを即時モデル更新する。
提案手法は,データ拡張を伴う慎重に訓練されたベースシステムに対して14.4%の相対的なWER改善を実現し,ベースシステムとオラクルシステム間の性能ギャップを50%削減する。
論文 参考訳(メタデータ) (2020-01-24T18:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。