論文の概要: EMA2S: An End-to-End Multimodal Articulatory-to-Speech System
- arxiv url: http://arxiv.org/abs/2102.03786v1
- Date: Sun, 7 Feb 2021 12:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:15:59.297721
- Title: EMA2S: An End-to-End Multimodal Articulatory-to-Speech System
- Title(参考訳): EMA2S:マルチモーダル音声合成システム
- Authors: Yu-Wen Chen, Kuo-Hsuan Hung, Shang-Yi Chuang, Jonathan Sherman,
Wen-Chin Huang, Xugang Lu, Yu Tsao
- Abstract要約: EMA2Sは,マルチモーダル音声合成システムである。
ニューラルネットワークベースのボコーダとマルチモーダルなジョイントトレーニングを併用し,スペクトログラム,メル-スペクトログラム,深部特徴を取り入れた。
- 参考スコア(独自算出の注目度): 26.491629363635454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesized speech from articulatory movements can have real-world use for
patients with vocal cord disorders, situations requiring silent speech, or in
high-noise environments. In this work, we present EMA2S, an end-to-end
multimodal articulatory-to-speech system that directly converts articulatory
movements to speech signals. We use a neural-network-based vocoder combined
with multimodal joint-training, incorporating spectrogram, mel-spectrogram, and
deep features. The experimental results confirm that the multimodal approach of
EMA2S outperforms the baseline system in terms of both objective evaluation and
subjective evaluation metrics. Moreover, results demonstrate that joint
mel-spectrogram and deep feature loss training can effectively improve system
performance.
- Abstract(参考訳): 調音運動から合成された音声は、声帯障害、サイレントスピーチを必要とする状況、あるいはハイノイズ環境での実際の使用が可能である。
本研究では,音声信号に調音運動を直接変換するマルチモーダル音声合成システムであるema2sを提案する。
ニューラルネットワークベースのボコーダとマルチモーダルなジョイントトレーニングを併用し,スペクトログラム,メル-スペクトログラム,深部特徴を取り入れた。
The experimental results confirmed that the multimodal approach of EMA2S is outperforming the baseline system with both objective evaluation and subjective evaluation metrics。
さらに,関節メルスペクトログラムと深い特徴損失トレーニングにより,システム性能が効果的に向上することを示す。
関連論文リスト
- Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture [11.063156506583562]
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインに比べて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T13:50:59Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - FV2ES: A Fully End2End Multimodal System for Fast Yet Effective Video
Emotion Recognition Inference [6.279057784373124]
本稿では,高速かつ効果的な認識推定のためのフルマルチモーダル映像合成システム(FV2ES)を設計する。
音響スペクトルに対する階層的アテンション法の適用は、音響モーダルの限られた寄与によって破られる。
整列型マルチモーダル学習モデルへのデータ前処理のさらなる統合により、計算コストとストレージスペースが大幅に削減される。
論文 参考訳(メタデータ) (2022-09-21T08:05:26Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。