論文の概要: emg2speech: synthesizing speech from electromyography using self-supervised speech models
- arxiv url: http://arxiv.org/abs/2510.23969v1
- Date: Tue, 28 Oct 2025 00:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.172798
- Title: emg2speech: synthesizing speech from electromyography using self-supervised speech models
- Title(参考訳): emg2speech:自己教師型音声モデルを用いた筋電図からの音声合成
- Authors: Harshavardhana T. Gowda, Lee M. Miller,
- Abstract要約: 本稿では,音声の調音中に口腔筋から収集した筋電図(EMG)信号を直接音声に変換する神経筋音声インタフェースを提案する。
自己教師音声(SS)表現は筋活動電位の電気力と強い線形関係を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a neuromuscular speech interface that translates electromyographic (EMG) signals collected from orofacial muscles during speech articulation directly into audio. We show that self-supervised speech (SS) representations exhibit a strong linear relationship with the electrical power of muscle action potentials: SS features can be linearly mapped to EMG power with a correlation of $r = 0.85$. Moreover, EMG power vectors corresponding to different articulatory gestures form structured and separable clusters in feature space. This relationship: $\text{SS features}$ $\xrightarrow{\texttt{linear mapping}}$ $\text{EMG power}$ $\xrightarrow{\texttt{gesture-specific clustering}}$ $\text{articulatory movements}$, highlights that SS models implicitly encode articulatory mechanisms. Leveraging this property, we directly map EMG signals to SS feature space and synthesize speech, enabling end-to-end EMG-to-speech generation without explicit articulatory models and vocoder training.
- Abstract(参考訳): 本稿では,音声の調音中に口腔筋から収集した筋電図(EMG)信号を直接音声に変換する神経筋音声インタフェースを提案する。
自己教師音声(SS)表現は筋活動電位の電気力と強い線形関係を示すことを示す。
さらに、特徴空間における異なる調音ジェスチャーに対応するEMGパワーベクトルが構造化され、分離可能なクラスタを形成する。
この関係:$\text{SS features}$ $\xrightarrow{\textt{linear mapping}}$ $\text{EMG power}$ $$\xrightarrow{\textt{gesture-specific clustering}}$ $\text{articulatory Movement}$ SSモデルが暗黙的に調音機構をエンコードしていることを強調する。
この特性を活用して、EMG信号を直接SS特徴空間にマッピングし、音声を合成し、明示的な調音モデルやボコーダ訓練を伴わずに、エンドツーエンドのEMG音声生成を可能にする。
関連論文リスト
- Articulatory Feature Prediction from Surface EMG during Speech Production [25.10685431811405]
音声合成における表面筋電図(EMG)信号から調音特徴を予測するモデルを提案する。
提案モデルでは,畳み込み層とトランスフォーマーブロックを統合し,続いて音声特徴の予測器を分離する。
予測された調音特徴を可知音声波形にデコードできることを実証する。
論文 参考訳(メタデータ) (2025-05-20T01:50:05Z) - Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography [0.0]
表面筋電図(EMG)信号を用いた音声明瞭化のためのデータと方法を提案する。
EMGベースの音声ニューロプロテーゼは、知的に話す能力を失った個人において、可聴音声の復元に有望なアプローチを提供する。
論文 参考訳(メタデータ) (2024-11-04T20:31:22Z) - DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Toward Fully-End-to-End Listened Speech Decoding from EEG Signals [29.548052495254257]
脳波信号からの完全エンドツーエンド音声デコーディングのための新しいフレームワークであるFESDEを提案する。
提案手法は,脳波モジュールと音声モジュール,およびコネクタから構成される。
音声符号化のモデル特性を明らかにするために, きめ細かい音素解析を行った。
論文 参考訳(メタデータ) (2024-06-12T21:08:12Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。