論文の概要: EPG2S: Speech Generation and Speech Enhancement based on
Electropalatography and Audio Signals using Multimodal Learning
- arxiv url: http://arxiv.org/abs/2206.07860v1
- Date: Thu, 16 Jun 2022 00:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 16:58:30.385134
- Title: EPG2S: Speech Generation and Speech Enhancement based on
Electropalatography and Audio Signals using Multimodal Learning
- Title(参考訳): EPG2S:マルチモーダル学習を用いたエレクトロラトグラフィーと音声信号に基づく音声生成と音声強調
- Authors: Li-Chin Chen, Po-Hsun Chen, Richard Tzong-Han Tsai, and Yu Tsao
- Abstract要約: 本稿では,EPGと音声信号を用いて音声生成と強調を行うマルチモーダルEPG-to-speech(EPG2S)システムを提案する。
EPG2Sは、EPG信号のみに基づいて、望ましい音声生成結果を得る。
雑音のある音声信号の追加は、品質と知性を向上させるために観察される。
- 参考スコア(独自算出の注目度): 10.881599227601146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech generation and enhancement based on articulatory movements facilitate
communication when the scope of verbal communication is absent, e.g., in
patients who have lost the ability to speak. Although various techniques have
been proposed to this end, electropalatography (EPG), which is a monitoring
technique that records contact between the tongue and hard palate during
speech, has not been adequately explored. Herein, we propose a novel multimodal
EPG-to-speech (EPG2S) system that utilizes EPG and speech signals for speech
generation and enhancement. Different fusion strategies based on multiple
combinations of EPG and noisy speech signals are examined, and the viability of
the proposed method is investigated. Experimental results indicate that EPG2S
achieves desirable speech generation outcomes based solely on EPG signals.
Further, the addition of noisy speech signals is observed to improve quality
and intelligibility. Additionally, EPG2S is observed to achieve high-quality
speech enhancement based solely on audio signals, with the addition of EPG
signals further improving the performance. The late fusion strategy is deemed
to be the most effective approach for simultaneous speech generation and
enhancement.
- Abstract(参考訳): 調音運動に基づく音声生成と強調は、言語コミュニケーションのスコープが欠如している場合、例えば、発話能力を失った患者において、コミュニケーションを促進する。
この目的のために様々な技術が提案されているが、発話中に舌と硬口蓋の接触を記録するモニタリング技術であるepg(electropalatography)は十分に研究されていない。
本稿では,EPGと音声信号を用いて音声生成と強調を行うマルチモーダルEPG-to-speech(EPG2S)システムを提案する。
複数組み合わせのEPGと雑音音声信号に基づいて異なる融合戦略について検討し,提案手法の有効性について検討した。
実験結果から,EPG2SはEPG信号のみに基づく望ましい音声生成結果が得られることがわかった。
さらに、ノイズの多い音声信号の追加は、品質と知性を向上させるために観察される。
さらに、EPG2Sは、音声信号のみに基づく高品質な音声強調を実現し、EPG信号の追加により、さらなる性能向上を実現している。
後期融合戦略は、同時発声と強調のための最も効果的なアプローチであると考えられている。
関連論文リスト
- Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography [0.0]
何百万人もの個人が、神経筋疾患、脳卒中、外傷、頭頸部がん手術により、知能的に話す能力を失っている。
非侵襲的表面筋電図(sEMG)は、これらの個人における音声出力の回復を約束している。
目標は、音声を静かに生成するときに複数の音場からsEMG信号を収集し、その信号をデコードして、流動的で自然なコミュニケーションを可能にすることである。
論文 参考訳(メタデータ) (2024-11-04T20:31:22Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - Improving Speech Enhancement through Fine-Grained Speech Characteristics [42.49874064240742]
そこで本稿では,強調信号の知覚的品質と自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質と相関する重要な音響パラメータを同定する。
次に,これらの特徴について,クリーン音声と拡張音声との差を低減することを目的とした目的関数を提案する。
論文 参考訳(メタデータ) (2022-07-01T07:04:28Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - EMGSE: Acoustic/EMG Fusion for Multimodal Speech Enhancement [23.6932090265405]
マルチモーダル学習は、音声強調(SE)性能を向上させる効果的な方法であることが証明されている。
音声と顔の筋電図を統合したマルチモーダルSEのための新しいEMGSEフレームワークを提案する。
実験結果から,提案したEMGSEシステムは,音声のみのSEシステムよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-02-14T06:39:13Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - EMA2S: An End-to-End Multimodal Articulatory-to-Speech System [26.491629363635454]
EMA2Sは,マルチモーダル音声合成システムである。
ニューラルネットワークベースのボコーダとマルチモーダルなジョイントトレーニングを併用し,スペクトログラム,メル-スペクトログラム,深部特徴を取り入れた。
論文 参考訳(メタデータ) (2021-02-07T12:14:14Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Detection of Glottal Closure Instants from Speech Signals: a
Quantitative Review [9.351195374919365]
最先端の5つのGCI検出アルゴリズムを6つのデータベースを用いて比較する。
これらの手法の有効性は, 可読性と精度の両面から, クリーン音声で評価される。
クリーン音声では, SEDREAMS と YAGA が識別率と精度の両面で最良であることを示す。
論文 参考訳(メタデータ) (2019-12-28T14:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。