論文の概要: Articulatory-WaveNet: Autoregressive Model For Acoustic-to-Articulatory
Inversion
- arxiv url: http://arxiv.org/abs/2006.12594v1
- Date: Mon, 22 Jun 2020 20:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:58:10.754178
- Title: Articulatory-WaveNet: Autoregressive Model For Acoustic-to-Articulatory
Inversion
- Title(参考訳): 調音波ネット:音響-調波インバージョンのための自己回帰モデル
- Authors: Narjes Bozorg and Michael T.Johnson
- Abstract要約: Articulatory-WaveNetはアコースティック・トゥ・アコースティック・アコースティック・トゥ・アコースティック・インバージョンのための新しいアプローチである。
The ElectroMagnetic Articulography corpus of Mandarin Accented English。
- 参考スコア(独自算出の注目度): 6.58411552613476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Articulatory-WaveNet, a new approach for
acoustic-to-articulator inversion. The proposed system uses the WaveNet speech
synthesis architecture, with dilated causal convolutional layers using previous
values of the predicted articulatory trajectories conditioned on acoustic
features. The system was trained and evaluated on the ElectroMagnetic
Articulography corpus of Mandarin Accented English (EMA-MAE),consisting of 39
speakers including both native English speakers and native Mandarin speakers
speaking English. Results show significant improvement in both correlation and
RMSE between the generated and true articulatory trajectories for the new
method, with an average correlation of 0.83, representing a 36% relative
improvement over the 0.61 correlation obtained with a baseline Hidden Markov
Model (HMM)-Gaussian Mixture Model (GMM) inversion framework. To the best of
our knowledge, this paper presents the first application of a point-by-point
waveform synthesis approach to the problem of acoustic-to-articulatory
inversion and the results show improved performance compared to previous
methods for speaker dependent acoustic to articulatory inversion.
- Abstract(参考訳): 本稿では,音響-調音間インバージョンのための新しいアプローチである調音ウェーブネットについて述べる。
提案システムはWaveNet音声合成アーキテクチャを用いて,音響特性を前提とした予測音節軌道の先行値を用いた拡張因果畳み込み層を用いた。
このシステムは、英語の母語話者と母語話者の両方を含む39人の話者からなるマンダリンアクセント・イングリッシュ(EMA-MAE)のElectroMagnetic Articulography corpusで訓練され、評価された。
その結果,新しい手法では,ベースライン隠れマルコフモデル (hmm) とガウス混合モデル (gmm) のインバージョンフレームワークで得られた 0.61 相関に対して, 平均 0.83 の相関関係が, 相関とrmse が有意な改善を示した。
そこで本研究では,音響-調音間インバージョン問題に対するポイント・バイ・ポイント波形合成法を初めて適用し,従来の話者依存音響から調音的インバージョン法と比較して性能が向上したことを示す。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-26T02:54:57Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - Learning Joint Articulatory-Acoustic Representations with Normalizing
Flows [7.183132975698293]
可逆ニューラルネットワークモデルを用いて母音の調音領域と音響領域の結合潜時表現を求める。
提案手法は調音から音響へのマッピングと音響から調音へのマッピングの両方を実現し,両領域の同時符号化の実現に成功していることを示す。
論文 参考訳(メタデータ) (2020-05-16T04:34:36Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Improving auditory attention decoding performance of linear and
non-linear methods using state-space model [21.40315235087551]
脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。
AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。
相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
論文 参考訳(メタデータ) (2020-04-02T09:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。