Fugu-MT 論文翻訳(概要): Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography

論文の概要: Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography

arxiv url: http://arxiv.org/abs/2411.02591v2
Date: Fri, 15 Nov 2024 02:33:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.367357
Title: Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography
Title（参考訳）: 顔面神経筋信号の幾何学:表面筋電図を用いた音声明瞭化復号
Authors: Harshavardhana T. Gowda, Zachary D. McNaughton, Lee M. Miller,
Abstract要約: 何百万人もの個人が、神経筋疾患、脳卒中、外傷、頭頸部がん手術により、知能的に話す能力を失っている。非侵襲的表面筋電図(sEMG)は、これらの個人における音声出力の回復を約束している。目標は、音声を静かに生成するときに複数の音場からsEMG信号を収集し、その信号をデコードして、流動的で自然なコミュニケーションを可能にすることである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Each year, millions of individuals lose the ability to speak intelligibly due to causes such as neuromuscular disease, stroke, trauma, and head/neck cancer surgery (e.g. laryngectomy) or treatment (e.g. radiotherapy toxicity to the speech articulators). Effective communication is crucial for daily activities, and losing the ability to speak leads to isolation, depression, anxiety, and a host of detrimental sequelae. Noninvasive surface electromyography (sEMG) has shown promise to restore speech output in these individuals. The goal is to collect sEMG signals from multiple articulatory sites as people silently produce speech and then decode the signals to enable fluent and natural communication. Currently, many fundamental properties of orofacial neuromuscular signals relating to speech articulation remain unanswered. They include questions relating to 1) the data structure of the orofacial sEMG signals, 2)the signal distribution shift of sEMG across individuals, 3) ability of sEMG signals to span the entire English language phonetic space during silent speech articulations, and 4) the generalization capability of non-invasive sEMG based silent speech interfaces. We address these questions through a series of experiments involving healthy human subjects. We show that sEMG signals evince graph data structure and that the signal distribution shift is given by a change of basis. Furthermore, we show that silently voiced articulations spanning the entire English language phonetic space can be decoded using small neural networks which can be trained with little data and that such architectures work well across individuals. To ensure transparency and reproducibility, we open-source all the data and codes used in this study.
Abstract（参考訳）: 毎年、何百万人もの人が神経筋疾患、脳卒中、外傷、頭頸部がん手術(例えば喉頭切除術)や治療(例えば、発声器に対する放射線療法の毒性)などの原因で、知能的に話す能力を失っている。効果的なコミュニケーションは日常的な活動にとって不可欠であり、会話能力を失うと孤立、抑うつ、不安、有害な後続の宿主となる。非侵襲的表面筋電図(sEMG)は、これらの個人における音声出力の回復を約束している。目標は、音声を静かに生成するときに複数の音場からsEMG信号を収集し、その信号をデコードして、流動的で自然なコミュニケーションを可能にすることである。現在、音声の調音に関する口腔神経筋信号の基本的特性は未解決のままである。 1) 口腔内sEMG信号のデータ構造, 2) 個人間でのsEMGの信号分布変化に関する質問が含まれている。 3)無声音声調音中における英語音声空間全体にわたってのsEMG信号の活用 4)非侵襲的sEMGに基づくサイレント音声インタフェースの一般化能力健康な被験者を対象とする一連の実験を通じて,これらの課題に対処する。本稿では,SEMG信号がグラフデータ構造に影響を及ぼし,信号分布シフトが基底変化によって与えられることを示す。さらに、英語の音声空間全体にまたがる無声で発声された調音は、小さなニューラルネットワークを用いてデコードされ、少ないデータでトレーニングでき、そのようなアーキテクチャは個人間でうまく機能することを示す。透明性と再現性を確保するため、本研究では、すべてのデータとコードをオープンソース化する。

関連論文リスト

Decoding Covert Speech from EEG Using a Functional Areas Spatio-Temporal Transformer [9.914613096064848]
脳波(EEG)からの音声の復号は、脳波マッピングの理解が限られているため困難である。本研究では,57人の右利き英語話者を対象に,大規模多言語音声脳波を作成した。本研究は,前頭側頭葉領域と側頭葉領域のFAST生成活性化マップを可視化することにより,音声のニューラル特徴を明らかにした。
論文参考訳（メタデータ） (2025-04-02T10:38:08Z)
Towards Dynamic Neural Communication and Speech Neuroprosthesis Based on Viseme Decoding [25.555303640695577]
テキスト、音声、あるいは人間の神経信号から画像を復号することは、患者の神経補綴や革新的なコミュニケーションツールとして有望な可能性を秘めている。音声関連非侵襲脳信号から視覚音声意図を復号する拡散モデルに基づくフレームワークを開発した。脳信号と動的視覚インターフェースのギャップを効果的に埋め、コヒーレントな唇運動の再構築に成功した。
論文参考訳（メタデータ） (2025-01-09T04:47:27Z)
Wearable intelligent throat enables natural speech in stroke patients with dysarthria [18.380855184550775]
ウェアラブル型サイレント音声システムは, 音声障害患者のコミュニケーション回復に有意な可能性を秘めている。喉の筋肉振動と頸動脈パルス信号センサを統合したAI駆動型インテリジェント喉(IT)システムを提案する。変形性脳症の脳卒中患者5名を対象に、ITのLLMエージェントはトークンエラーをインテリジェントに修正し、文レベルの感情的および論理的一貫性を充実させた。
論文参考訳（メタデータ） (2024-11-27T12:03:52Z)
NeuGPT: Unified multi-modal Neural GPT [48.70587003475798]
NeuGPTは、ニューラルネットワーク研究の断片化された風景を調和させるために設計された、画期的なマルチモーダル言語生成モデルである。我々のモデルは主に脳からテキストへのデコーディングに焦点をあて、BLEU-1では6.94から12.92に、ROUGE-1Fでは6.93から13.06に改善した。また、脳の信号をシミュレートし、新しい神経インターフェースとして機能する。
論文参考訳（メタデータ） (2024-10-28T10:53:22Z)
Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis [0.0]
本稿では, 変形性関節症を認識・翻訳するための新しいアプローチを提案する。我々は、高精度な音声補正とマルチモーダル感情分析に先進的な大規模言語モデルを活用する。我々の枠組みは、意図した文を歪んだ音声から高精度に再構成しながら、幸福、悲しみ、中立、驚き、怒り、恐怖などの感情を識別する。
論文参考訳（メタデータ） (2024-10-13T20:54:44Z)
SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文参考訳（メタデータ） (2024-09-17T02:36:10Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs [12.234206036041218]
我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
論文参考訳（メタデータ） (2024-07-30T04:32:27Z)
Inner speech recognition through electroencephalographic signals [2.578242050187029]
本研究は、脳波信号から始まる内的音声認識に焦点を当てる。脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
論文参考訳（メタデータ） (2022-10-11T08:29:12Z)
Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文参考訳（メタデータ） (2022-08-25T10:01:43Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
Synthesized Speech Detection Using Convolutional Transformer-Based Spectrogram Analysis [16.93803259128475]
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
論文参考訳（メタデータ） (2022-05-03T22:05:35Z)
Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。 SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文参考訳（メタデータ） (2020-09-04T11:05:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。