論文の概要: Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography
- arxiv url: http://arxiv.org/abs/2411.02591v3
- Date: Sun, 05 Oct 2025 18:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 19:16:49.327486
- Title: Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography
- Title(参考訳): 顔面神経筋信号の幾何学:表面筋電図を用いた音声明瞭化復号
- Authors: Harshavardhana T. Gowda, Zachary D. McNaughton, Lee M. Miller,
- Abstract要約: 表面筋電図(EMG)信号を用いた音声明瞭化のためのデータと方法を提案する。
EMGベースの音声ニューロプロテーゼは、知的に話す能力を失った個人において、可聴音声の復元に有望なアプローチを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective. In this article, we present data and methods for decoding speech articulations using surface electromyogram (EMG) signals. EMG-based speech neuroprostheses offer a promising approach for restoring audible speech in individuals who have lost the ability to speak intelligibly due to laryngectomy, neuromuscular diseases, stroke, or trauma-induced damage (e.g., from radiotherapy) to the speech articulators. Approach. To achieve this, we collect EMG signals from the face, jaw, and neck as subjects articulate speech, and we perform EMG-to-speech translation. Main results. Our findings reveal that the manifold of symmetric positive definite (SPD) matrices serves as a natural embedding space for EMG signals. Specifically, we provide an algebraic interpretation of the manifold-valued EMG data using linear transformations, and we analyze and quantify distribution shifts in EMG signals across individuals. Significance. Overall, our approach demonstrates significant potential for developing neural networks that are both data- and parameter-efficient, an important consideration for EMG-based systems, which face challenges in large-scale data collection and operate under limited computational resources on embedded devices.
- Abstract(参考訳): 目的。
本稿では,表面筋電図(EMG)信号を用いた音声明瞭化のためのデータと手法を提案する。
EMGベースの音声ニューロプロテーゼは、喉頭切除術、神経筋疾患、脳卒中、外傷による損傷(例えば放射線療法による)によって知能的に話す能力を失った個人に対して、音声の再生に有望なアプローチを提供する。
アプローチ。
そこで我々は, 顔, 顎, 首から筋電図を音声として収集し, EMG-to-speech翻訳を行う。
主な結果。
その結果, 対称正定値行列の多様体はEMG信号の自然な埋め込み空間として機能することが判明した。
具体的には、線形変換を用いた多様体値EMGデータの代数的解釈を行い、個人間でのEMG信号の分布シフトを分析し、定量化する。
重要なこと。
提案手法は,大規模なデータ収集の課題に直面し,組込みデバイス上で限られた計算資源の下で運用する,EMGベースのシステムにおいて重要な考慮事項である,データ効率とパラメータ効率の両方を持つニューラルネットワークを開発する上で,大きな可能性を示すものである。
関連論文リスト
- Decoding Covert Speech from EEG Using a Functional Areas Spatio-Temporal Transformer [9.914613096064848]
脳波(EEG)からの音声の復号は、脳波マッピングの理解が限られているため困難である。
本研究では,57人の右利き英語話者を対象に,大規模多言語音声脳波を作成した。
本研究は,前頭側頭葉領域と側頭葉領域のFAST生成活性化マップを可視化することにより,音声のニューラル特徴を明らかにした。
論文 参考訳(メタデータ) (2025-04-02T10:38:08Z) - Towards Dynamic Neural Communication and Speech Neuroprosthesis Based on Viseme Decoding [25.555303640695577]
テキスト、音声、あるいは人間の神経信号から画像を復号することは、患者の神経補綴や革新的なコミュニケーションツールとして有望な可能性を秘めている。
音声関連非侵襲脳信号から視覚音声意図を復号する拡散モデルに基づくフレームワークを開発した。
脳信号と動的視覚インターフェースのギャップを効果的に埋め、コヒーレントな唇運動の再構築に成功した。
論文 参考訳(メタデータ) (2025-01-09T04:47:27Z) - Wearable intelligent throat enables natural speech in stroke patients with dysarthria [18.380855184550775]
ウェアラブル型サイレント音声システムは, 音声障害患者のコミュニケーション回復に有意な可能性を秘めている。
喉の筋肉振動と頸動脈パルス信号センサを統合したAI駆動型インテリジェント喉(IT)システムを提案する。
変形性脳症の脳卒中患者5名を対象に、ITのLLMエージェントはトークンエラーをインテリジェントに修正し、文レベルの感情的および論理的一貫性を充実させた。
論文 参考訳(メタデータ) (2024-11-27T12:03:52Z) - NeuGPT: Unified multi-modal Neural GPT [48.70587003475798]
NeuGPTは、ニューラルネットワーク研究の断片化された風景を調和させるために設計された、画期的なマルチモーダル言語生成モデルである。
我々のモデルは主に脳からテキストへのデコーディングに焦点をあて、BLEU-1では6.94から12.92に、ROUGE-1Fでは6.93から13.06に改善した。
また、脳の信号をシミュレートし、新しい神経インターフェースとして機能する。
論文 参考訳(メタデータ) (2024-10-28T10:53:22Z) - Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis [0.0]
本稿では, 変形性関節症を認識・翻訳するための新しいアプローチを提案する。
我々は、高精度な音声補正とマルチモーダル感情分析に先進的な大規模言語モデルを活用する。
我々の枠組みは、意図した文を歪んだ音声から高精度に再構成しながら、幸福、悲しみ、中立、驚き、怒り、恐怖などの感情を識別する。
論文 参考訳(メタデータ) (2024-10-13T20:54:44Z) - SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs [12.234206036041218]
我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。
音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
論文 参考訳(メタデータ) (2024-07-30T04:32:27Z) - Inner speech recognition through electroencephalographic signals [2.578242050187029]
本研究は、脳波信号から始まる内的音声認識に焦点を当てる。
脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。
音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
論文 参考訳(メタデータ) (2022-10-11T08:29:12Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis [16.93803259128475]
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。
本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
論文 参考訳(メタデータ) (2022-05-03T22:05:35Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。