論文の概要: Acoustic-to-articulatory Inversion based on Speech Decomposition and
Auxiliary Feature
- arxiv url: http://arxiv.org/abs/2204.00873v1
- Date: Sat, 2 Apr 2022 14:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 06:15:25.473943
- Title: Acoustic-to-articulatory Inversion based on Speech Decomposition and
Auxiliary Feature
- Title(参考訳): 音声分解と補助特徴に基づく音響-調音インバージョン
- Authors: Jianrong Wang, Jinyu Liu, Longxuan Zhao, Shanyu Wang, Ruiguo Yu, Li
Liu
- Abstract要約: 我々は、音声分解ネットワークを事前訓練し、音声を話者埋め込みとコンテンツ埋め込みに分解する。
次に、パーソナライズされた音声特徴から唇補助特徴を推定する新しい補助特徴ネットワークを提案する。
実験結果から,提案手法は,音声特徴のみを用いた最先端の手法と比較して平均RMSEを0.25削減し,平均相関係数を2.0%向上させることがわかった。
- 参考スコア(独自算出の注目度): 7.363994037183394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acoustic-to-articulatory inversion (AAI) is to obtain the movement of
articulators from speech signals. Until now, achieving a speaker-independent
AAI remains a challenge given the limited data. Besides, most current works
only use audio speech as input, causing an inevitable performance bottleneck.
To solve these problems, firstly, we pre-train a speech decomposition network
to decompose audio speech into speaker embedding and content embedding as the
new personalized speech features to adapt to the speaker-independent case.
Secondly, to further improve the AAI, we propose a novel auxiliary feature
network to estimate the lip auxiliary features from the above personalized
speech features. Experimental results on three public datasets show that,
compared with the state-of-the-art only using the audio speech feature, the
proposed method reduces the average RMSE by 0.25 and increases the average
correlation coefficient by 2.0% in the speaker-dependent case. More
importantly, the average RMSE decreases by 0.29 and the average correlation
coefficient increases by 5.0% in the speaker-independent case.
- Abstract(参考訳): アコースティック・トゥ・アコースティック・インバージョン (AAI) は、音声信号から調音器の動きを得る。
これまで、話者に依存しないAAIを実現することは、限られたデータを考えると、依然として課題である。
さらに、現在のほとんどの作品は音声のみを入力として使用しており、必然的なパフォーマンスボトルネックを引き起こしている。
これらの問題を解決するために,まず,音声分解ネットワークを事前学習し,話者非依存の場合に対応する新しいパーソナライズされた音声特徴として,音声を話者埋め込みとコンテンツ埋め込みに分解する。
次に,AAIをさらに改善するために,上述のパーソナライズされた音声特徴から唇補助特徴を推定する新たな補助特徴ネットワークを提案する。
3つの公開データセットを用いた実験の結果, 提案手法は, 音声特徴量のみを用いた場合と比較して平均rmseを0.25に減らし, 話者依存の場合の平均相関係数を2.0%増加させることがわかった。
さらに、平均RMSEは0.29減少し、平均相関係数は話者非依存の場合は5.0%上昇する。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Convoifilter: A case study of doing cocktail party speech recognition [59.80042864360884]
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-22T12:09:30Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Use of Speech Impairment Severity for Dysarthric Speech Recognition [37.93801885333925]
本稿では, 難易度と話者識別性を両立させる新しい手法を提案する。
UASpeechの実験では、最先端のハイブリッドDNN、E2E Conformer、事前訓練されたWav2vec 2.0 ASRシステムに音声障害の重大度を組み込むことが提案されている。
論文 参考訳(メタデータ) (2023-05-18T02:42:59Z) - Learning from human perception to improve automatic speaker verification
in style-mismatched conditions [21.607777746331998]
我々の以前の実験は、人間と機械が話者識別に異なるアプローチを採っていることを示している。
我々は、人間の知覚から学んだ洞察を用いて、「CllrCE損失」と呼ぶ新しい訓練損失関数を設計する。
CllrCE損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
論文 参考訳(メタデータ) (2022-06-28T01:24:38Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。