論文の概要: A Penny for Your Thoughts: Decoding Speech from Inexpensive Brain Signals
- arxiv url: http://arxiv.org/abs/2511.04691v1
- Date: Tue, 28 Oct 2025 06:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:30.984779
- Title: A Penny for Your Thoughts: Decoding Speech from Inexpensive Brain Signals
- Title(参考訳): 脳の信号から音声を復号する方法
- Authors: Quentin Auster, Kateryna Shapovalenko, Chuang Ma, Demaio Sun,
- Abstract要約: 脳波記録を音声表現にマッピングすることで、ニューラルネットワークが脳活動を音声にデコードできるかどうかを検討する。
被験者が自然音声を聴くように記録した脳波データを用いて、コントラストのあるCLIP損失を持つモデルを訓練し、脳波由来の埋め込みと、事前訓練されたトランスフォーマーベース音声モデルからの埋め込みとを一致させる。
- 参考スコア(独自算出の注目度): 1.621606615628714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore whether neural networks can decode brain activity into speech by mapping EEG recordings to audio representations. Using EEG data recorded as subjects listened to natural speech, we train a model with a contrastive CLIP loss to align EEG-derived embeddings with embeddings from a pre-trained transformer-based speech model. Building on the state-of-the-art EEG decoder from Meta, we introduce three architectural modifications: (i) subject-specific attention layers (+0.15% WER improvement), (ii) personalized spatial attention (+0.45%), and (iii) a dual-path RNN with attention (-1.87%). Two of the three modifications improved performance, highlighting the promise of personalized architectures for brain-to-speech decoding and applications in brain-computer interfaces.
- Abstract(参考訳): 脳波記録を音声表現にマッピングすることで、ニューラルネットワークが脳活動を音声にデコードできるかどうかを検討する。
被験者が自然音声を聴くように記録した脳波データを用いて、コントラストのあるCLIP損失を持つモデルを訓練し、脳波由来の埋め込みと、事前訓練されたトランスフォーマーベース音声モデルからの埋め込みとを一致させる。
Metaから最先端のEEGデコーダを構築するには、3つのアーキテクチャ修正を導入する。
(i)主観的注意層(+0.15% WER改善)
(二)パーソナライズされた空間的注意(+0.45%)、
(iii)注目のデュアルパスRNN(-1.87%)。
3つの修正のうち2つはパフォーマンスを改善し、脳から音声へのデコーディングと脳-コンピュータインターフェースへの応用のためのパーソナライズされたアーキテクチャの約束を強調した。
関連論文リスト
- NeuroCLIP: Brain-Inspired Prompt Tuning for EEG-to-Image Multimodal Contrastive Learning [13.254096454986318]
脳波から画像へのコントラスト学習に適したプロンプトチューニングフレームワークであるNeuroCLIPを提案する。
我々は初めて視覚的プロンプトトークンを脳波画像アライメントに導入し、グローバルなモダリティレベルのプロンプトとして機能する。
THINGS-EEG2データセットでは、NeuroCLIPはゼロショット画像検索において63.2%のTop-1精度を達成した。
論文 参考訳(メタデータ) (2025-11-12T12:13:24Z) - Enhancing Listened Speech Decoding from EEG via Parallel Phoneme Sequence Prediction [36.38186261968484]
本稿では脳波(EEG)信号から聴取音声の復号化を促進する新しい手法を提案する。
テキスト音素列を同時に復号する補助音素予測器を用いる。
論文 参考訳(メタデータ) (2025-01-08T21:11:35Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。