論文の概要: Affect Decoding in Phonated and Silent Speech Production from Surface EMG
- arxiv url: http://arxiv.org/abs/2603.11715v1
- Date: Thu, 12 Mar 2026 09:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.988551
- Title: Affect Decoding in Phonated and Silent Speech Production from Surface EMG
- Title(参考訳): 表面EMGによる音素・無音音声生成におけるデコードの影響
- Authors: Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. Schuller,
- Abstract要約: EMGなどの調音筋活動の計測は、音声音声分析とともに感情によって発声がどのように変調されるかを明らかにすることができる。
そこで本研究では,12人の被験者から3つのタスクにまたがる2,780の発話からなるデータセットを導入し,オブジェクト内およびオブジェクト間デコーディングの評価を行った。
以上の結果から,EMG表現は最大0.845AUCのフラストレーションを確実に識別し,調音モード全体にわたってよく一般化することがわかった。
- 参考スコア(独自算出の注目度): 79.21240088868818
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The expression of affect is integral to spoken communication, yet, its link to underlying articulatory execution remains unclear. Measures of articulatory muscle activity such as EMG could reveal how speech production is modulated by emotion alongside acoustic speech analyses. We investigate affect decoding from facial and neck surface electromyography (sEMG) during phonated and silent speech production. For this purpose, we introduce a dataset comprising 2,780 utterances from 12 participants across 3 tasks, on which we evaluate both intra- and inter-subject decoding using a range of features and model embeddings. Our results reveal that EMG representations reliably discriminate frustration with up to 0.845 AUC, and generalize well across articulation modes. Our ablation study further demonstrates that affective signatures are embedded in facial motor activity and persist in the absence of phonation, highlighting the potential of EMG sensing for affect-aware silent speech interfaces.
- Abstract(参考訳): 感情表現は音声通信に不可欠なものであるが、その基礎となる調音実行との関連はいまだ不明である。
EMGなどの調音筋活動の計測は、音声音声分析とともに感情によって発声がどのように変調されるかを明らかにすることができる。
音声・無声音声合成における顔面・頚部筋電図の復号化について検討した。
そこで本研究では,12人の参加者から3つのタスクにまたがる2,780の発話からなるデータセットを導入し,様々な特徴とモデル埋め込みを用いてオブジェクト内およびオブジェクト間デコーディングの評価を行った。
以上の結果から,EMG表現は最大0.845AUCのフラストレーションを確実に識別し,調音モード全体にわたってよく一般化することがわかった。
我々のアブレーション研究は、情緒的なシグネチャが顔面運動に埋め込まれ、発声のない状態で持続していることをさらに示し、情緒に敏感な音声インタフェースのためのEMGセンシングの可能性を強調した。
関連論文リスト
- CAT-Net: A Cross-Attention Tone Network for Cross-Subject EEG-EMG Fusion Tone Decoding [0.8714814768600078]
本稿では,新たなクロスオブジェクトマルチモーダルBCIデコーディングフレームワークを提案する。
脳波とEMG信号を融合させ、4つのマンダリン音を可聴音と無声音の両方で分類する。
脳波-EMGチャネルを最小化したトーンレベルのデコーディングは,被験者間で実現可能であり,潜在的に一般化可能であることが示唆された。
論文 参考訳(メタデータ) (2025-11-14T03:50:54Z) - A Silent Speech Decoding System from EEG and EMG with Heterogenous Electrode Configurations [0.20075899678041528]
脳波/EMGを異種電極配置で処理できるニューラルネットワークを導入する。
大規模脳波/EMGデータセットを用いたマルチタスク学習によるサイレント音声復号における高い性能を示す。
論文 参考訳(メタデータ) (2025-06-16T07:57:35Z) - Enhancing Speech Emotion Recognition with Graph-Based Multimodal Fusion and Prosodic Features for the Speech Emotion Recognition in Naturalistic Conditions Challenge at Interspeech 2025 [64.59170359368699]
自然条件課題におけるInterSPEECH 2025音声感情認識のための頑健なシステムを提案する。
提案手法は,最先端の音声モデルと韻律的・スペクトル的手法によって強化されたテキスト特徴を組み合わせる。
論文 参考訳(メタデータ) (2025-06-02T13:46:02Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography [0.0]
表面筋電図(EMG)信号を用いた音声明瞭化のためのデータと方法を提案する。
EMGベースの音声ニューロプロテーゼは、知的に話す能力を失った個人において、可聴音声の復元に有望なアプローチを提供する。
論文 参考訳(メタデータ) (2024-11-04T20:31:22Z) - NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - The "Sound of Silence" in EEG -- Cognitive voice activity detection [22.196642357767338]
音声の沈黙領域に対応する脳活動の「非音声(NS)」状態について検討した。
音声知覚はそのような状態の存在を検査するために研究され、その後、音声の想像力においてその識別が行われる。
認識性能と視覚的区別は脳波におけるサイレントシグネチャの存在を示す。
論文 参考訳(メタデータ) (2020-10-12T07:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。