論文の概要: Neural Decoding of Overt Speech from ECoG Using Vision Transformers and Contrastive Representation Learning
- arxiv url: http://arxiv.org/abs/2512.04618v1
- Date: Thu, 04 Dec 2025 09:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.098532
- Title: Neural Decoding of Overt Speech from ECoG Using Vision Transformers and Contrastive Representation Learning
- Title(参考訳): 視覚変換器とコントラスト表現学習を用いたECoGからのオーバート音声のニューラルデコード
- Authors: Mohamed Baha Ben Ticha, Xingchen Ran, Guillaume Saldanha, Gaël Le Godais, Philémon Roussel, Marc Aubert, Amina Fontanell, Thomas Costecalde, Lucas Struber, Serpil Karakas, Shaomin Zhang, Philippe Kahane, Guillaume Charvet, Stéphan Chabardès, Blaise Yvert,
- Abstract要約: Speech Brain Computer Interfacesは、重度の麻痺を抱える人々に対して、コミュニケーションができない有望なソリューションを提供する。
近年の研究では、表面電図(ECoG)や皮質内記録からの理解不能音声の再構築が実証されている。
本稿では,エンコーダ-デコーダディープニューラルアーキテクチャに基づいて,視覚変換器とコントラスト学習を統合したオフライン音声復号パイプラインを提案する。
- 参考スコア(独自算出の注目度): 1.58476321728042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Brain Computer Interfaces (BCIs) offer promising solutions to people with severe paralysis unable to communicate. A number of recent studies have demonstrated convincing reconstruction of intelligible speech from surface electrocorticographic (ECoG) or intracortical recordings by predicting a series of phonemes or words and using downstream language models to obtain meaningful sentences. A current challenge is to reconstruct speech in a streaming mode by directly regressing cortical signals into acoustic speech. While this has been achieved recently using intracortical data, further work is needed to obtain comparable results with surface ECoG recordings. In particular, optimizing neural decoders becomes critical in this case. Here we present an offline speech decoding pipeline based on an encoder-decoder deep neural architecture, integrating Vision Transformers and contrastive learning to enhance the direct regression of speech from ECoG signals. The approach is evaluated on two datasets, one obtained with clinical subdural electrodes in an epileptic patient, and another obtained with the fully implantable WIMAGINE epidural system in a participant of a motor BCI trial. To our knowledge this presents a first attempt to decode speech from a fully implantable and wireless epidural recording system offering perspectives for long-term use.
- Abstract(参考訳): Speech Brain Computer Interfaces (BCI) は、重度の麻痺を抱える人々に対して、コミュニケーションができない有望なソリューションを提供する。
近年の多くの研究は、一連の音素や単語を予測し、下流の言語モデルを用いて意味のある文章を得ることにより、表面脳波(ECoG)や皮質内記録からの理解不能音声の再構築を実証している。
現在の課題は、皮質信号を直接音響音声に回帰させることで、ストリーミングモードで音声を再構成することである。
これは最近、皮質内データを用いて達成されているが、表面のECoG記録と同等の結果を得るためには、さらなる研究が必要である。
特に、このケースでは、ニューラルデコーダの最適化が重要になる。
本稿では,エンコーダ-デコーダディープニューラルアーキテクチャに基づくオフライン音声復号パイプラインを提案する。
本手法は, てんかん患者において臨床硬膜下電極を用いて得られた2つのデータセットと, 運動性BCI臨床試験の参加者に対して, 完全に植込み可能なWIMAGINE硬膜外システムを用いて得られた2つのデータセットを用いて評価した。
我々の知る限り、これは音声を移植可能で無線の硬膜外記録システムから復号化するための最初の試みである。
関連論文リスト
- Reconstructing Unseen Sentences from Speech-related Biosignals for Open-vocabulary Neural Communication [45.424817836500175]
本研究は,様々な音声モードにおける未確認文に対する音声合成の可能性について検討する。
本研究では,高密度脳波(EEG)信号から抽出した音素レベル情報と筋電図(EMG)信号とを独立に利用した。
本研究は, 生体信号に基づく文レベルの音声合成が未確認文の再構成に有効であることを示すものである。
論文 参考訳(メタデータ) (2025-10-31T07:31:13Z) - sEEG-based Encoding for Sentence Retrieval: A Contrastive Learning Approach to Brain-Language Alignment [8.466223794246261]
本稿では,凍結したCLIPモデルの文埋め込み空間に単射ステレオ脳波信号(sEEG)を投影するコントラスト学習フレームワークであるSSENSEを提案する。
本手法は,自然主義映画視聴データセットから,時系列のsEEGと音声の書き起こしについて評価する。
論文 参考訳(メタデータ) (2025-04-20T03:01:42Z) - Decoding Covert Speech from EEG Using a Functional Areas Spatio-Temporal Transformer [9.914613096064848]
脳波(EEG)からの音声の復号は、脳波マッピングの理解が限られているため困難である。
本研究では,57人の右利き英語話者を対象に,大規模多言語音声脳波を作成した。
本研究は,前頭側頭葉領域と側頭葉領域のFAST生成活性化マップを可視化することにより,音声のニューラル特徴を明らかにした。
論文 参考訳(メタデータ) (2025-04-02T10:38:08Z) - Enhancing Listened Speech Decoding from EEG via Parallel Phoneme Sequence Prediction [36.38186261968484]
本稿では脳波(EEG)信号から聴取音声の復号化を促進する新しい手法を提案する。
テキスト音素列を同時に復号する補助音素予測器を用いる。
論文 参考訳(メタデータ) (2025-01-08T21:11:35Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Synthesizing Speech from Intracranial Depth Electrodes using an
Encoder-Decoder Framework [1.623136488969658]
音声神経補綴は、変形性関節症や変形性関節症患者のコミュニケーションを可能にする可能性がある。
近年の進歩は、皮質表面に置かれた電磁気格子から高品質なテキストデコーディングと音声合成を実証している。
論文 参考訳(メタデータ) (2021-11-02T09:43:21Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。