論文の概要: A Silent Speech Decoding System from EEG and EMG with Heterogenous Electrode Configurations
- arxiv url: http://arxiv.org/abs/2506.13835v1
- Date: Mon, 16 Jun 2025 07:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.181732
- Title: A Silent Speech Decoding System from EEG and EMG with Heterogenous Electrode Configurations
- Title(参考訳): 異種電極構成による脳波・筋電図からの無声音声復号システム
- Authors: Masakazu Inoue, Motoshige Sato, Kenichi Tomeoka, Nathania Nah, Eri Hatakeyama, Kai Arulkumaran, Ilya Horiguchi, Shuntaro Sasai,
- Abstract要約: 脳波/EMGを異種電極配置で処理できるニューラルネットワークを導入する。
大規模脳波/EMGデータセットを用いたマルチタスク学習によるサイレント音声復号における高い性能を示す。
- 参考スコア(独自算出の注目度): 0.20075899678041528
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Silent speech decoding, which performs unvocalized human speech recognition from electroencephalography/electromyography (EEG/EMG), increases accessibility for speech-impaired humans. However, data collection is difficult and performed using varying experimental setups, making it nontrivial to collect a large, homogeneous dataset. In this study we introduce neural networks that can handle EEG/EMG with heterogeneous electrode placements and show strong performance in silent speech decoding via multi-task training on large-scale EEG/EMG datasets. We achieve improved word classification accuracy in both healthy participants (95.3%), and a speech-impaired patient (54.5%), substantially outperforming models trained on single-subject data (70.1% and 13.2%). Moreover, our models also show gains in cross-language calibration performance. This increase in accuracy suggests the feasibility of developing practical silent speech decoding systems, particularly for speech-impaired patients.
- Abstract(参考訳): 脳波/筋電図(EEG/EMG)による無声化人間の音声認識を行う無声音声復号法は、音声障害者に対するアクセシビリティを高める。
しかし、データ収集は困難であり、様々な実験装置を用いて行われるため、大規模で均質なデータセットを収集するのは簡単ではない。
本研究では,脳波/EMGを異種電極配置で処理できるニューラルネットワークを導入し,大規模脳波/EMGデータセットを用いたマルチタスクトレーニングによるサイレント音声復号性能を示す。
健常者(95.3%)と言語障害患者(54.5%)の双方で単語分類精度が向上し、単目的データ(70.1%と13.2%)で訓練されたモデルよりもかなり優れていた。
さらに,本モデルでは,言語間の校正性能も向上した。
この精度の向上は、特に言語障害患者に対する実用的なサイレント音声復号システムの実現可能性を示している。
関連論文リスト
- Decoding Phone Pairs from MEG Signals Across Speech Modalities [0.4054486015338004]
脳磁図信号を用いて、音声生成や知覚タスク中の脳活動から携帯電話を復号する方法について検討した。
その結果,受動聴取や再生モダリティと比較して,音声生成時の復号精度が有意に高かった。
論文 参考訳(メタデータ) (2025-05-21T10:31:34Z) - Decoding EEG Speech Perception with Transformers and VAE-based Data Augmentation [6.405846203953988]
脳波からのデコード音声は脳-コンピュータインターフェース(BCI)を進展させる可能性がある
EEGベースの音声デコーディングは、ノイズの多いデータ、限られたデータセット、音声認識のような複雑なタスクにおけるパフォーマンスの低下など、大きな課題に直面している。
本研究では,データ品質向上のために,変動型オートエンコーダ(VAE)をEEGデータ拡張に適用することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-01-08T08:55:10Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Speech Artifact Removal from EEG Recordings of Spoken Word Production
with Tensor Decomposition [20.397149635457346]
音声アーティファクトは脳波(EEG)信号を汚染し、基礎となる認知過程の検査を防ぐ。
音声による脳波研究をさらに促進するため,3モードテンソル分解法を提案する。
画像認識タスクでは, 口に2つの電極を配置し, 口唇筋電図を記録することで, 音声のアーティファクトを用いて生データを収集した。
論文 参考訳(メタデータ) (2022-06-01T17:10:23Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。