論文の概要: Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.10274v1
- Date: Sat, 19 Mar 2022 08:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:10:16.462445
- Title: Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition
- Title(参考訳): 障害音声認識のためのクロスドメイン音響-調音反転特徴の抽出
- Authors: Shujie Hu, Shansong Liu, Xurong Xie, Mengzhe Geng, Tianzi Wang,
Shoukang Hu, Mingyu Cui, Xunying Liu, Helen Meng
- Abstract要約: 調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
- 参考スコア(独自算出の注目度): 57.15942628305797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Articulatory features are inherently invariant to acoustic signal distortion
and have been successfully incorporated into automatic speech recognition (ASR)
systems for normal speech. Their practical application to disordered speech
recognition is often limited by the difficulty in collecting such specialist
data from impaired speakers. This paper presents a cross-domain
acoustic-to-articulatory (A2A) inversion approach that utilizes the parallel
acoustic-articulatory data of the 15-hour TORGO corpus in model training before
being cross-domain adapted to the 102.7-hour UASpeech corpus and to produce
articulatory features. Mixture density networks based neural A2A inversion
models were used. A cross-domain feature adaptation network was also used to
reduce the acoustic mismatch between the TORGO and UASpeech data. On both
tasks, incorporating the A2A generated articulatory features consistently
outperformed the baseline hybrid DNN/TDNN, CTC and Conformer based end-to-end
systems constructed using acoustic features only. The best multi-modal system
incorporating video modality and the cross-domain articulatory features as well
as data augmentation and learning hidden unit contributions (LHUC) speaker
adaptation produced the lowest published word error rate (WER) of 24.82% on the
16 dysarthric speakers of the benchmark UASpeech task.
- Abstract(参考訳): 調音機能は音響信号の歪みに本質的に不変であり、正常音声のための自動音声認識(ASR)システムにうまく組み込まれている。
障害話者からそのような専門的データを収集することの難しさにより、その音声認識への実践的応用が制限されることがしばしばある。
本稿では、102.7時間UASpeechコーパスに適合するまでのモデルトレーニングにおいて、15時間TORGOコーパスの並列音響調音データを利用するクロスドメイン音響調音(A2A)インバージョン手法を提案する。
混合密度ネットワークに基づくニューラルA2Aインバージョンモデルを用いた。
また,ORGOデータとUASpeechデータの音響ミスマッチを低減するために,クロスドメイン特徴適応ネットワークを用いた。
両方のタスクにおいて、A2Aの生成した調音機能を組み込むことで、ベースラインハイブリッドDNN/TDNN、CTC、コンフォーマーベースのエンドツーエンドシステムは音響的特徴のみを用いて構築された。
ビデオモダリティとクロスドメインの調音機能を組み込んだ最高のマルチモーダルシステムと、データ拡張と学習用隠れユニットコントリビューション(LHUC)話者適応は、ベンチマークUASpeechタスクの16の変形性話者に対して、24.82%の低い単語誤り率(WER)を生み出した。
関連論文リスト
- UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Exploring Self-supervised Pre-trained ASR Models For Dysarthric and
Elderly Speech Recognition [57.31233839489528]
本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合する手法について検討する。
論文 参考訳(メタデータ) (2023-02-28T13:39:17Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Acoustic-to-articulatory Inversion based on Speech Decomposition and
Auxiliary Feature [7.363994037183394]
我々は、音声分解ネットワークを事前訓練し、音声を話者埋め込みとコンテンツ埋め込みに分解する。
次に、パーソナライズされた音声特徴から唇補助特徴を推定する新しい補助特徴ネットワークを提案する。
実験結果から,提案手法は,音声特徴のみを用いた最先端の手法と比較して平均RMSEを0.25削減し,平均相関係数を2.0%向上させることがわかった。
論文 参考訳(メタデータ) (2022-04-02T14:47:19Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。