論文の概要: EMGSE: Acoustic/EMG Fusion for Multimodal Speech Enhancement
- arxiv url: http://arxiv.org/abs/2202.06507v1
- Date: Mon, 14 Feb 2022 06:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 18:18:53.835701
- Title: EMGSE: Acoustic/EMG Fusion for Multimodal Speech Enhancement
- Title(参考訳): EMGSE:マルチモーダル音声強調のための音響・EMG融合
- Authors: Kuan-Chen Wang, Kai-Chun Liu, Hsin-Min Wang, Yu Tsao
- Abstract要約: マルチモーダル学習は、音声強調(SE)性能を向上させる効果的な方法であることが証明されている。
音声と顔の筋電図を統合したマルチモーダルSEのための新しいEMGSEフレームワークを提案する。
実験結果から,提案したEMGSEシステムは,音声のみのSEシステムよりも優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 23.6932090265405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning has been proven to be an effective method to improve
speech enhancement (SE) performance, especially in challenging situations such
as low signal-to-noise ratios, speech noise, or unseen noise types. In previous
studies, several types of auxiliary data have been used to construct multimodal
SE systems, such as lip images, electropalatography, or electromagnetic
midsagittal articulography. In this paper, we propose a novel EMGSE framework
for multimodal SE, which integrates audio and facial electromyography (EMG)
signals. Facial EMG is a biological signal containing articulatory movement
information, which can be measured in a non-invasive way. Experimental results
show that the proposed EMGSE system can achieve better performance than the
audio-only SE system. The benefits of fusing EMG signals with acoustic signals
for SE are notable under challenging circumstances. Furthermore, this study
reveals that cheek EMG is sufficient for SE.
- Abstract(参考訳): マルチモーダル学習は、特に低信号対雑音比、音声雑音、未知覚雑音といった困難な状況において、音声強調(se)性能を改善する効果的な方法であることが証明されている。
従来, 唇画像, 電気パラトグラフィー, 電磁中矢状動脈造影などの多モードSEシステムの構築に, 補助データの種類が用いられてきた。
本稿では,音声および顔面筋電図(emg)信号を統合するマルチモーダルseのための新しいemgseフレームワークを提案する。
顔面筋電図は関節運動情報を含む生体信号であり、非侵襲的に測定することができる。
実験結果から,提案したEMGSEシステムは,音声のみのSEシステムよりも優れた性能が得られることがわかった。
SEのための音響信号とEMG信号を融合させることの利点は、困難な状況下で顕著である。
さらに, 頬部筋電図はSEに十分であることが明らかとなった。
関連論文リスト
- Revisiting Noise Resilience Strategies in Gesture Recognition: Short-Term Enhancement in Surface Electromyographic Signal Analysis [21.078713208075346]
短期拡張モジュール(STEM)は、様々なモデルと容易に統合できる。
1)手動データ拡張なしでノイズを低減できる難易度学習,2)様々なモデルに適応可能なスケーラビリティ,3)費用対効果,2)最小限のウェイトシェアリングによる短期的な強化を効率的な注意機構で達成する。
論文 参考訳(メタデータ) (2024-04-17T09:57:40Z) - Transferring Ultrahigh-Field Representations for Intensity-Guided Brain
Segmentation of Low-Field Magnetic Resonance Imaging [51.92395928517429]
7T MRIの使用は、低磁場MRIと比較して高コストでアクセシビリティが低いため制限されている。
本研究では,入力されたLF磁気共鳴特徴表現と,脳画像分割タスクのための7T様特徴表現とを融合したディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T12:21:06Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Classification of eye-state using EEG recordings: speed-up gains using
signal epochs and mutual information measure [0.0]
チャネル選択のための相互情報(MI)に基づく手法を提案する。
分類精度スコアにはペナルティがある一方で、MI技術を用いて期待できるスピードアップゲインを実現することができることを示す。
本研究は探索的であり,検証と開発のためのさらなる研究が提案されている。
論文 参考訳(メタデータ) (2022-08-31T10:28:42Z) - Upper Limb Movement Recognition utilising EEG and EMG Signals for
Rehabilitative Robotics [0.0]
上肢運動分類のための新しい決定レベル多センサ融合手法を提案する。
システムは脳波信号をEMG信号と統合し、両方の情報源から効果的な情報を取得し、ユーザの欲求を理解し予測する。
論文 参考訳(メタデータ) (2022-07-18T14:51:23Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - EMA2S: An End-to-End Multimodal Articulatory-to-Speech System [26.491629363635454]
EMA2Sは,マルチモーダル音声合成システムである。
ニューラルネットワークベースのボコーダとマルチモーダルなジョイントトレーニングを併用し,スペクトログラム,メル-スペクトログラム,深部特徴を取り入れた。
論文 参考訳(メタデータ) (2021-02-07T12:14:14Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Heterogeneous Hand Guise Classification Based on Surface
Electromyographic Signals Using Multichannel Convolutional Neural Network [0.0]
機械学習の分野での最近の進歩は、EMG信号を使って機械に人間の動作の複雑な特性を教えることができる。
現代の機械は、多数の人間の活動を検出し、それらの活動によって生成されたEMG信号のみに基づいて区別することができる。
本研究では,電力領域に現れる特性によって表面EMG信号を解釈する多チャンネル畳み込みニューラルネットワーク(CNN)を用いた新しい分類法について述べる。
論文 参考訳(メタデータ) (2021-01-17T17:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。