論文の概要: CAT-Net: A Cross-Attention Tone Network for Cross-Subject EEG-EMG Fusion Tone Decoding
- arxiv url: http://arxiv.org/abs/2511.10935v1
- Date: Fri, 14 Nov 2025 03:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.419905
- Title: CAT-Net: A Cross-Attention Tone Network for Cross-Subject EEG-EMG Fusion Tone Decoding
- Title(参考訳): CAT-Net: クロスオブジェクトEEG-EMGフュージョントーンデコードのためのクロスアテンショントーンネットワーク
- Authors: Yifan Zhuang, Calvin Huang, Zepeng Yu, Yongjie Zou, Jiawei Ju,
- Abstract要約: 本稿では,新たなクロスオブジェクトマルチモーダルBCIデコーディングフレームワークを提案する。
脳波とEMG信号を融合させ、4つのマンダリン音を可聴音と無声音の両方で分類する。
脳波-EMGチャネルを最小化したトーンレベルのデコーディングは,被験者間で実現可能であり,潜在的に一般化可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.8714814768600078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain-computer interface (BCI) speech decoding has emerged as a promising tool for assisting individuals with speech impairments. In this context, the integration of electroencephalography (EEG) and electromyography (EMG) signals offers strong potential for enhancing decoding performance. Mandarin tone classification presents particular challenges, as tonal variations convey distinct meanings even when phonemes remain identical. In this study, we propose a novel cross-subject multimodal BCI decoding framework that fuses EEG and EMG signals to classify four Mandarin tones under both audible and silent speech conditions. Inspired by the cooperative mechanisms of neural and muscular systems in speech production, our neural decoding architecture combines spatial-temporal feature extraction branches with a cross-attention fusion mechanism, enabling informative interaction between modalities. We further incorporate domain-adversarial training to improve cross-subject generalization. We collected 4,800 EEG trials and 4,800 EMG trials from 10 participants using only twenty EEG and five EMG channels, demonstrating the feasibility of minimal-channel decoding. Despite employing lightweight modules, our model outperforms state-of-the-art baselines across all conditions, achieving average classification accuracies of 87.83% for audible speech and 88.08% for silent speech. In cross-subject evaluations, it still maintains strong performance with accuracies of 83.27% and 85.10% for audible and silent speech, respectively. We further conduct ablation studies to validate the effectiveness of each component. Our findings suggest that tone-level decoding with minimal EEG-EMG channels is feasible and potentially generalizable across subjects, contributing to the development of practical BCI applications.
- Abstract(参考訳): 脳-コンピュータインタフェース(BCI)音声デコーディングは、音声障害のある個人を支援するための有望なツールとして登場した。
この文脈では、脳波(EEG)と筋電図(EMG)信号の統合は、復号性能を高める強力な可能性をもたらす。
マンダリン音の分類は、音素が同一のままであっても、音調の変化が異なる意味を伝えるため、特定の課題を示す。
本研究では,脳波とEMG信号を融合させて4つのマンダリン音を可聴・無声両方の音声条件下で分類する,クロスオブジェクトマルチモーダルBCIデコーディングフレームワークを提案する。
音声生成における神経系と筋肉系の協調機構に触発されて,我々の神経復号アーキテクチャは空間的時間的特徴抽出枝と相互注意融合機構を組み合わせることで,モーダル間の情報的相互作用を可能にする。
さらに、クロスオブジェクトの一般化を改善するために、ドメイン・アドバイザリ・トレーニングを取り入れる。
脳波計4,800回,脳波計4,800回,脳波計20回,EMG計5回の計4,800回を収集し,最小チャネル復号の可能性を示した。
軽量なモジュールを採用するにもかかわらず、我々のモデルはあらゆる条件において最先端のベースラインを上回り、可聴音声では87.83%、無声音声では88.08%の平均的な分類精度を達成している。
クロスオブジェクト評価では、それぞれ83.27%と85.10%のアキュラシエーションとサイレントスピーチの強いパフォーマンスを維持している。
さらに,各成分の有効性を検証するためのアブレーション研究を行っている。
脳波-EMGチャネルを最小化するトーンレベルのデコーディングは,被験者間で実現可能で,潜在的に一般化可能であり,実用的なBCIアプリケーションの開発に寄与する可能性が示唆された。
関連論文リスト
- WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - HapticLLaMA: A Multimodal Sensory Language Model for Haptic Captioning [16.01096757075079]
HapticLLaMA(ハプティックラーマ)は、振動信号を与えられた感覚、感情、または連想のカテゴリーの記述に解釈する多モーダル感覚言語モデルである。
HapticLLaMAは,(1)LLaMAアーキテクチャを用いた教師付き微調整,(2)人間からのフィードバックからの強化学習による微調整の2段階で訓練される。
HapticLLaMA は触覚振動信号を解釈する強力な能力を示し、それぞれ 59.98 の METEOR スコアと 32.06 の BLEU-4 スコアを達成している。
論文 参考訳(メタデータ) (2025-08-08T17:25:37Z) - A Silent Speech Decoding System from EEG and EMG with Heterogenous Electrode Configurations [0.20075899678041528]
脳波/EMGを異種電極配置で処理できるニューラルネットワークを導入する。
大規模脳波/EMGデータセットを用いたマルチタスク学習によるサイレント音声復号における高い性能を示す。
論文 参考訳(メタデータ) (2025-06-16T07:57:35Z) - CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [46.47343031985037]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。
トークン化方式は、チャネルごとのパッチで脳波信号を表現します。
本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文 参考訳(メタデータ) (2025-01-18T21:44:38Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。