論文の概要: Decoding Phone Pairs from MEG Signals Across Speech Modalities
- arxiv url: http://arxiv.org/abs/2505.15355v1
- Date: Wed, 21 May 2025 10:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.510145
- Title: Decoding Phone Pairs from MEG Signals Across Speech Modalities
- Title(参考訳): 音声モダリティ間のMEG信号から電話ペアを復号する
- Authors: Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Mathieu Bourguignon, Nicola Molinaro,
- Abstract要約: 脳磁図信号を用いて、音声生成や知覚タスク中の脳活動から携帯電話を復号する方法について検討した。
その結果,受動聴取や再生モダリティと比較して,音声生成時の復号精度が有意に高かった。
- 参考スコア(独自算出の注目度): 0.4054486015338004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the neural mechanisms underlying speech production is essential for both advancing cognitive neuroscience theory and developing practical communication technologies. In this study, we investigated magnetoencephalography signals to decode phones from brain activity during speech production and perception (passive listening and voice playback) tasks. Using a dataset comprising 17 participants, we performed pairwise phone classification, extending our analysis to 15 phonetic pairs. Multiple machine learning approaches, including regularized linear models and neural network architectures, were compared to determine their effectiveness in decoding phonetic information. Our results demonstrate significantly higher decoding accuracy during speech production (76.6%) compared to passive listening and playback modalities (~51%), emphasizing the richer neural information available during overt speech. Among the models, the Elastic Net classifier consistently outperformed more complex neural networks, highlighting the effectiveness of traditional regularization techniques when applied to limited and high-dimensional MEG datasets. Besides, analysis of specific brain frequency bands revealed that low-frequency oscillations, particularly Delta (0.2-3 Hz) and Theta (4-7 Hz), contributed the most substantially to decoding accuracy, suggesting that these bands encode critical speech production-related neural processes. Despite using advanced denoising methods, it remains unclear whether decoding solely reflects neural activity or if residual muscular or movement artifacts also contributed, indicating the need for further methodological refinement. Overall, our findings underline the critical importance of examining overt speech production paradigms, which, despite their complexity, offer opportunities to improve brain-computer interfaces to help individuals with severe speech impairments.
- Abstract(参考訳): 音声生成の基礎となる神経メカニズムを理解することは、認知神経科学理論の進展と実践的なコミュニケーション技術の発展に不可欠である。
本研究では,脳磁図信号を用いて,音声生成時の脳活動と知覚(受聴・音声再生)タスクにおける脳活動から携帯電話をデコードする手法を検討した。
17人の参加者からなるデータセットを用いて、ペアワイズ音声分類を行い、分析を15対に拡張した。
正規化線形モデルやニューラルネットワークアーキテクチャを含む複数の機械学習アプローチを比較して、音声情報の復号化の有効性を判定した。
その結果, 音声生成時の復号精度は, 受動聴取や再生モダリティ(約51%)と比較して76.6%高く, オーバート音声中に利用できるよりリッチなニューラル情報を強調した。
モデルの中で、Elastic Net分類器はより複雑なニューラルネットワークを一貫して上回り、制限された高次元のMEGデータセットに適用した場合の従来の正規化手法の有効性を強調した。
さらに、特定の脳周波数帯域の分析により、特にデルタ(0.2-3 Hz)とセタ(4-7 Hz)の低周波発振がデコード精度に大きく寄与し、これらの帯域が重要な音声生成関連神経過程を符号化していることが明らかとなった。
高度な denoising 法を用いているにもかかわらず、デコードが神経活動のみを反映しているか、あるいは残存する筋肉や運動の人工物も寄与しているかは定かではない。
以上の結果から,過度な音声生成パラダイムを検討することの重要性が示唆された。
関連論文リスト
- neuro2voc: Decoding Vocalizations from Neural Activity [3.1913357260723303]
本研究は,ゼブラフィンチモータ出力の復号化実験手法について検討する。
XGBoostとSHAP分析により,音節分類に不可欠な神経相互作用パターンが明らかにされた。
組み合わせた対照的な学習-VAEフレームワークは、双対神経データからスペクトログラムを生成することに成功した。
論文 参考訳(メタデータ) (2025-02-02T11:09:31Z) - On Creating A Brain-To-Text Decoder [6.084958172018792]
本稿では,ヒト脳活動のデコードに生脳波信号(EEG)を適用した。
この調査は、音声生成に関連する神経信号の解読における脳-コンピュータインタフェース(BCI)の有効性を特に精査している。
論文 参考訳(メタデータ) (2025-01-10T20:04:54Z) - Bridging Auditory Perception and Language Comprehension through MEG-Driven Encoding Models [0.12289361708127873]
脳磁図(MEG)データを用いて、音声言語刺激に対する脳反応を解析する。
我々は,音声-MEGエンコーダとテキスト-MEGエンコーダの2つの異なる符号化モデルを開発した。
どちらのモデルも神経活動の予測に成功し、推定されたMEG信号と観測されたMEG信号の間に有意な相関を示す。
論文 参考訳(メタデータ) (2024-12-22T19:41:54Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。