論文の概要: Articulatory Feature Prediction from Surface EMG during Speech Production
- arxiv url: http://arxiv.org/abs/2505.13814v1
- Date: Tue, 20 May 2025 01:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.593062
- Title: Articulatory Feature Prediction from Surface EMG during Speech Production
- Title(参考訳): 音声合成における表面筋電図からの調音特徴予測
- Authors: Jihwan Lee, Kevin Huang, Kleanthis Avramidis, Simon Pistrosch, Monica Gonzalez-Machorro, Yoonjeong Lee, Björn Schuller, Louis Goldstein, Shrikanth Narayanan,
- Abstract要約: 音声合成における表面筋電図(EMG)信号から調音特徴を予測するモデルを提案する。
提案モデルでは,畳み込み層とトランスフォーマーブロックを統合し,続いて音声特徴の予測器を分離する。
予測された調音特徴を可知音声波形にデコードできることを実証する。
- 参考スコア(独自算出の注目度): 25.10685431811405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a model for predicting articulatory features from surface electromyography (EMG) signals during speech production. The proposed model integrates convolutional layers and a Transformer block, followed by separate predictors for articulatory features. Our approach achieves a high prediction correlation of approximately 0.9 for most articulatory features. Furthermore, we demonstrate that these predicted articulatory features can be decoded into intelligible speech waveforms. To our knowledge, this is the first method to decode speech waveforms from surface EMG via articulatory features, offering a novel approach to EMG-based speech synthesis. Additionally, we analyze the relationship between EMG electrode placement and articulatory feature predictability, providing knowledge-driven insights for optimizing EMG electrode configurations. The source code and decoded speech samples are publicly available.
- Abstract(参考訳): 音声合成における表面筋電図(EMG)信号から調音特徴を予測するモデルを提案する。
提案モデルでは,畳み込み層とトランスフォーマーブロックを統合し,続いて音声特徴の予測器を分離する。
提案手法は,ほとんどの調音的特徴に対して約0.9の高い予測相関を達成している。
さらに,これらの予測された調音特徴を,認識可能な音声波形にデコードできることを実証した。
我々の知る限り、これは表面EMGから音声波形を調音的特徴により復号する最初の方法であり、EMGに基づく音声合成の新しいアプローチを提供する。
さらに,EMG電極配置と音声特徴予測能力の関係を解析し,EMG電極配置を最適化するための知識駆動的な洞察を提供する。
ソースコードと復号された音声サンプルが公開されている。
関連論文リスト
- Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture [0.0]
本稿では,ある音声音響に係わる舌と唇の調音特徴を予測するための新しい手法を提案する。
提案するネットワークは,同時記録音声とEMA(Electromagnetic Articulography)データセットの2つのデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-04-25T05:57:22Z) - NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - Toward Fully-End-to-End Listened Speech Decoding from EEG Signals [29.548052495254257]
脳波信号からの完全エンドツーエンド音声デコーディングのための新しいフレームワークであるFESDEを提案する。
提案手法は,脳波モジュールと音声モジュール,およびコネクタから構成される。
音声符号化のモデル特性を明らかにするために, きめ細かい音素解析を行った。
論文 参考訳(メタデータ) (2024-06-12T21:08:12Z) - Topology of surface electromyogram signals: hand gesture decoding on Riemannian manifolds [0.0]
表面筋電図(EMG)信号を用いた手動作の復号化のためのデータと手法を提案する。
EMGをベースとした上肢インタフェースは、切断者リハビリ、人工上肢増強、コンピュータのジェスチャー制御、バーチャルおよび拡張現実の応用に有用である。
論文 参考訳(メタデータ) (2023-11-14T21:20:54Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - An Improved Model for Voicing Silent Speech [42.75251355374594]
音声を顔筋電図(EMG)信号から合成するサイレント音声の発声モデルを提案する。
我々のモデルは畳み込み層を用いて信号から特徴を抽出し、トランスフォーマー層はより長い距離で情報を伝達する。
論文 参考訳(メタデータ) (2021-06-03T15:33:23Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。