論文の概要: Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features
- arxiv url: http://arxiv.org/abs/2604.18920v2
- Date: Mon, 27 Apr 2026 02:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 19:29:41.883545
- Title: Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features
- Title(参考訳): 調音・音素特徴を用いた音声モード間のsEMG符号化精度の比較
- Authors: Chenqian Le, Ruisi Li, Beatrice Fumagalli, Yasamin Esmaeili, Xupeng Chen, Amirhossein Khalilian-Gourtani, Tianyu He, Adeen Flinker, Yao Wang,
- Abstract要約: 音声動脈符号化(SPARC)の特徴は、24人の被験者において、電極、ミメド、および声道下音声を線形に表わすことができる。
発声音声と調音音声は比較可能であり、発声音声は機会より高く、検出可能な調音活動を示す。
本研究では,表現/エンコード解析(エンドツーエンドのデコーディングではない)に焦点を当て,SEMGに基づくサイレント音声モデリングのための頑健で解釈可能な中間ターゲットとしてモデリングをサポートする。
- 参考スコア(独自算出の注目度): 12.594831745032574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We test whether Speech Articulatory Coding (SPARC) features can linearly predict surface electromyography (sEMG) envelopes across aloud, mimed, and subvocal speech in twenty-four subjects. Using elastic-net multivariate temporal response function (mTRF) with sentence-level cross-validation, SPARC yields higher prediction accuracy than phoneme one-hot representations on nearly all electrodes and in all speech modes. Aloud and mimed speech perform comparably, and subvocal speech remains above chance, indicating detectable articulatory activity. Variance partitioning shows a substantial unique contribution from SPARC and a minimal unique contribution from phoneme features. mTRF weight patterns reveal anatomically interpretable relationships between electrode sites and articulatory movements that remain consistent across modes. This study focuses on representation/encoding analysis (not end-to-end decoding) and supports SPARC as a robust and interpretable intermediate target for sEMG-based silent-speech modeling.
- Abstract(参考訳): 音声構音符号化 (SPARC) の特徴が, 音声, 調音, 声道下音声における表面筋電図(sEMG)エンベロープを線形に予測できるかどうかを, 被験者24名を対象に検討した。
文レベルのクロスバリデーションを持つ弾性ネット多変量時間応答関数(mTRF)を用いて、SPARCは、ほぼ全ての電極および全ての音声モードにおける音素片ホット表現よりも高い予測精度が得られる。
発声音声と調音音声は比較可能であり、発声音声は機会より高く、検出可能な調音活動を示す。
分散パーティショニングはSPARCからのかなりのユニークな貢献と、音素の特徴からの最小限の貢献を示している。
mTRFの重みパターンは、電極部位と音節運動の間の解剖学的に解釈可能な関係がモード間で一定であることを明らかにする。
本研究では,表現/エンコード解析(エンドツーエンドのデコーディングではない)に焦点を当て,SEMGに基づくサイレント音声モデリングのための頑健で解釈可能な中間ターゲットとしてSPARCをサポートする。
関連論文リスト
- Affect Decoding in Phonated and Silent Speech Production from Surface EMG [87.23336551848297]
EMGなどの調音筋活動の計測は、音声音声分析とともに感情によって発声がどのように変調されるかを明らかにすることができる。
そこで本研究では,12人の被験者から3つのタスクにまたがる2,780の発話からなるデータセットを導入し,オブジェクト内およびオブジェクト間デコーディングの評価を行った。
以上の結果から,EMG表現は最大0.845AUCのフラストレーションを確実に識別し,調音モード全体にわたってよく一般化することがわかった。
論文 参考訳(メタデータ) (2026-03-12T09:22:02Z) - VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI [14.398038581000302]
VocSegMRIは,映像,音声,音声の入力を相互注意融合により統合するフレームワークである。
Diceスコアは0.95、Hausdorff Distance(HD_95)は4.20mmである。
論文 参考訳(メタデータ) (2025-09-17T07:32:00Z) - Articulatory Feature Prediction from Surface EMG during Speech Production [25.10685431811405]
音声合成における表面筋電図(EMG)信号から調音特徴を予測するモデルを提案する。
提案モデルでは,畳み込み層とトランスフォーマーブロックを統合し,続いて音声特徴の予測器を分離する。
予測された調音特徴を可知音声波形にデコードできることを実証する。
論文 参考訳(メタデータ) (2025-05-20T01:50:05Z) - Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture [0.0]
本稿では,ある音声音響に係わる舌と唇の調音特徴を予測するための新しい手法を提案する。
提案するネットワークは,同時記録音声とEMA(Electromagnetic Articulography)データセットの2つのデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-04-25T05:57:22Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。