論文の概要: Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography
- arxiv url: http://arxiv.org/abs/2411.02591v2
- Date: Fri, 15 Nov 2024 02:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:44.367357
- Title: Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography
- Title(参考訳): 顔面神経筋信号の幾何学:表面筋電図を用いた音声明瞭化復号
- Authors: Harshavardhana T. Gowda, Zachary D. McNaughton, Lee M. Miller,
- Abstract要約: 何百万人もの個人が、神経筋疾患、脳卒中、外傷、頭頸部がん手術により、知能的に話す能力を失っている。
非侵襲的表面筋電図(sEMG)は、これらの個人における音声出力の回復を約束している。
目標は、音声を静かに生成するときに複数の音場からsEMG信号を収集し、その信号をデコードして、流動的で自然なコミュニケーションを可能にすることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Each year, millions of individuals lose the ability to speak intelligibly due to causes such as neuromuscular disease, stroke, trauma, and head/neck cancer surgery (e.g. laryngectomy) or treatment (e.g. radiotherapy toxicity to the speech articulators). Effective communication is crucial for daily activities, and losing the ability to speak leads to isolation, depression, anxiety, and a host of detrimental sequelae. Noninvasive surface electromyography (sEMG) has shown promise to restore speech output in these individuals. The goal is to collect sEMG signals from multiple articulatory sites as people silently produce speech and then decode the signals to enable fluent and natural communication. Currently, many fundamental properties of orofacial neuromuscular signals relating to speech articulation remain unanswered. They include questions relating to 1) the data structure of the orofacial sEMG signals, 2)the signal distribution shift of sEMG across individuals, 3) ability of sEMG signals to span the entire English language phonetic space during silent speech articulations, and 4) the generalization capability of non-invasive sEMG based silent speech interfaces. We address these questions through a series of experiments involving healthy human subjects. We show that sEMG signals evince graph data structure and that the signal distribution shift is given by a change of basis. Furthermore, we show that silently voiced articulations spanning the entire English language phonetic space can be decoded using small neural networks which can be trained with little data and that such architectures work well across individuals. To ensure transparency and reproducibility, we open-source all the data and codes used in this study.
- Abstract(参考訳): 毎年、何百万人もの人が神経筋疾患、脳卒中、外傷、頭頸部がん手術(例えば喉頭切除術)や治療(例えば、発声器に対する放射線療法の毒性)などの原因で、知能的に話す能力を失っている。
効果的なコミュニケーションは日常的な活動にとって不可欠であり、会話能力を失うと孤立、抑うつ、不安、有害な後続の宿主となる。
非侵襲的表面筋電図(sEMG)は、これらの個人における音声出力の回復を約束している。
目標は、音声を静かに生成するときに複数の音場からsEMG信号を収集し、その信号をデコードして、流動的で自然なコミュニケーションを可能にすることである。
現在、音声の調音に関する口腔神経筋信号の基本的特性は未解決のままである。
1) 口腔内sEMG信号のデータ構造, 2) 個人間でのsEMGの信号分布変化に関する質問が含まれている。
3)無声音声調音中における英語音声空間全体にわたってのsEMG信号の活用
4)非侵襲的sEMGに基づくサイレント音声インタフェースの一般化能力
健康な被験者を対象とする一連の実験を通じて,これらの課題に対処する。
本稿では,SEMG信号がグラフデータ構造に影響を及ぼし,信号分布シフトが基底変化によって与えられることを示す。
さらに、英語の音声空間全体にまたがる無声で発声された調音は、小さなニューラルネットワークを用いてデコードされ、少ないデータでトレーニングでき、そのようなアーキテクチャは個人間でうまく機能することを示す。
透明性と再現性を確保するため、本研究では、すべてのデータとコードをオープンソース化する。
関連論文リスト
- E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。
ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。
7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-11T13:21:20Z) - NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models [66.91449452840318]
我々は、コードブックベースのトークン化装置を中心としたスケーラブルな大脳波モデル(LBM)であるNeuroRVQを紹介する。
我々のトークンライザは, (i) フル周波数のニューラルスペクトルを捕捉するマルチスケール特徴抽出モジュール, (ii) 高精細符号化のための階層的残留ベクトル量子化(RVQ)コードブック, (iii) 効率的なトレーニングのためのEEG信号位相および振幅認識損失関数を統合する。
実験の結果,NeuroRVQは再建誤差を低くし,様々な下流タスクにおいて既存のLBMよりも優れることがわかった。
論文 参考訳(メタデータ) (2025-10-15T01:26:52Z) - WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - A Silent Speech Decoding System from EEG and EMG with Heterogenous Electrode Configurations [0.20075899678041528]
脳波/EMGを異種電極配置で処理できるニューラルネットワークを導入する。
大規模脳波/EMGデータセットを用いたマルチタスク学習によるサイレント音声復号における高い性能を示す。
論文 参考訳(メタデータ) (2025-06-16T07:57:35Z) - Articulatory Feature Prediction from Surface EMG during Speech Production [25.10685431811405]
音声合成における表面筋電図(EMG)信号から調音特徴を予測するモデルを提案する。
提案モデルでは,畳み込み層とトランスフォーマーブロックを統合し,続いて音声特徴の予測器を分離する。
予測された調音特徴を可知音声波形にデコードできることを実証する。
論文 参考訳(メタデータ) (2025-05-20T01:50:05Z) - Decoding Covert Speech from EEG Using a Functional Areas Spatio-Temporal Transformer [9.914613096064848]
脳波(EEG)からの音声の復号は、脳波マッピングの理解が限られているため困難である。
本研究では,57人の右利き英語話者を対象に,大規模多言語音声脳波を作成した。
本研究は,前頭側頭葉領域と側頭葉領域のFAST生成活性化マップを可視化することにより,音声のニューラル特徴を明らかにした。
論文 参考訳(メタデータ) (2025-04-02T10:38:08Z) - Towards Dynamic Neural Communication and Speech Neuroprosthesis Based on Viseme Decoding [25.555303640695577]
テキスト、音声、あるいは人間の神経信号から画像を復号することは、患者の神経補綴や革新的なコミュニケーションツールとして有望な可能性を秘めている。
音声関連非侵襲脳信号から視覚音声意図を復号する拡散モデルに基づくフレームワークを開発した。
脳信号と動的視覚インターフェースのギャップを効果的に埋め、コヒーレントな唇運動の再構築に成功した。
論文 参考訳(メタデータ) (2025-01-09T04:47:27Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Wearable intelligent throat enables natural speech in stroke patients with dysarthria [18.380855184550775]
ウェアラブル型サイレント音声システムは, 音声障害患者のコミュニケーション回復に有意な可能性を秘めている。
喉の筋肉振動と頸動脈パルス信号センサを統合したAI駆動型インテリジェント喉(IT)システムを提案する。
変形性脳症の脳卒中患者5名を対象に、ITのLLMエージェントはトークンエラーをインテリジェントに修正し、文レベルの感情的および論理的一貫性を充実させた。
論文 参考訳(メタデータ) (2024-11-27T12:03:52Z) - NeuGPT: Unified multi-modal Neural GPT [48.70587003475798]
NeuGPTは、ニューラルネットワーク研究の断片化された風景を調和させるために設計された、画期的なマルチモーダル言語生成モデルである。
我々のモデルは主に脳からテキストへのデコーディングに焦点をあて、BLEU-1では6.94から12.92に、ROUGE-1Fでは6.93から13.06に改善した。
また、脳の信号をシミュレートし、新しい神経インターフェースとして機能する。
論文 参考訳(メタデータ) (2024-10-28T10:53:22Z) - Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis [0.0]
本稿では, 変形性関節症を認識・翻訳するための新しいアプローチを提案する。
我々は、高精度な音声補正とマルチモーダル感情分析に先進的な大規模言語モデルを活用する。
我々の枠組みは、意図した文を歪んだ音声から高精度に再構成しながら、幸福、悲しみ、中立、驚き、怒り、恐怖などの感情を識別する。
論文 参考訳(メタデータ) (2024-10-13T20:54:44Z) - SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs [12.234206036041218]
我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。
音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
論文 参考訳(メタデータ) (2024-07-30T04:32:27Z) - Topology of surface electromyogram signals: hand gesture decoding on Riemannian manifolds [0.0]
表面筋電図(EMG)信号を用いた手動作の復号化のためのデータと手法を提案する。
EMGをベースとした上肢インタフェースは、切断者リハビリ、人工上肢増強、コンピュータのジェスチャー制御、バーチャルおよび拡張現実の応用に有用である。
論文 参考訳(メタデータ) (2023-11-14T21:20:54Z) - Brain-Driven Representation Learning Based on Diffusion Model [25.375490061512]
本研究では,拡散確率モデル(DDPM)について検討した。
条件付きオートエンコーダとDDPMを併用することで、我々の新しいアプローチは従来の機械学習アルゴリズムよりもかなり優れています。
本研究は,音声関連脳波信号解析のための高度な計算手法として,DDPMの可能性を強調した。
論文 参考訳(メタデータ) (2023-11-14T05:59:58Z) - Inner speech recognition through electroencephalographic signals [2.578242050187029]
本研究は、脳波信号から始まる内的音声認識に焦点を当てる。
脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。
音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
論文 参考訳(メタデータ) (2022-10-11T08:29:12Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis [16.93803259128475]
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。
本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
論文 参考訳(メタデータ) (2022-05-03T22:05:35Z) - DriPP: Driven Point Processes to Model Stimuli Induced Patterns in M/EEG
Signals [62.997667081978825]
我々はDriPPと呼ばれる新しい統計点過程モデルを開発する。
我々は、このモデルのパラメータを推定するために、高速で原理化された予測最大化(EM)アルゴリズムを導出する。
標準MEGデータセットの結果から,我々の手法が事象関連ニューラルレスポンスを明らかにすることが示された。
論文 参考訳(メタデータ) (2021-12-08T13:07:21Z) - Heterogeneous Hand Guise Classification Based on Surface
Electromyographic Signals Using Multichannel Convolutional Neural Network [0.0]
機械学習の分野での最近の進歩は、EMG信号を使って機械に人間の動作の複雑な特性を教えることができる。
現代の機械は、多数の人間の活動を検出し、それらの活動によって生成されたEMG信号のみに基づいて区別することができる。
本研究では,電力領域に現れる特性によって表面EMG信号を解釈する多チャンネル畳み込みニューラルネットワーク(CNN)を用いた新しい分類法について述べる。
論文 参考訳(メタデータ) (2021-01-17T17:02:04Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。