論文の概要: Decoding speech perception from non-invasive brain recordings
- arxiv url: http://arxiv.org/abs/2208.12266v2
- Date: Thu, 5 Oct 2023 15:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 23:25:34.645234
- Title: Decoding speech perception from non-invasive brain recordings
- Title(参考訳): 非侵襲的脳波記録からの音声知覚の復号
- Authors: Alexandre D\'efossez, Charlotte Caucheteux, J\'er\'emy Rapin, Ori
Kabeli, Jean-R\'emi King
- Abstract要約: 非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
- 参考スコア(独自算出の注目度): 48.46819575538446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding speech from brain activity is a long-awaited goal in both healthcare
and neuroscience. Invasive devices have recently led to major milestones in
that regard: deep learning algorithms trained on intracranial recordings now
start to decode elementary linguistic features (e.g. letters, words,
spectrograms). However, extending this approach to natural speech and
non-invasive brain recordings remains a major challenge. Here, we introduce a
model trained with contrastive-learning to decode self-supervised
representations of perceived speech from the non-invasive recordings of a large
cohort of healthy individuals. To evaluate this approach, we curate and
integrate four public datasets, encompassing 175 volunteers recorded with
magneto- or electro-encephalography (M/EEG), while they listened to short
stories and isolated sentences. The results show that our model can identify,
from 3 seconds of MEG signals, the corresponding speech segment with up to 41%
accuracy out of more than 1,000 distinct possibilities on average across
participants, and more than 80% in the very best participants - a performance
that allows the decoding of words and phrases absent from the training set. The
comparison of our model to a variety of baselines highlights the importance of
(i) a contrastive objective, (ii) pretrained representations of speech and
(iii) a common convolutional architecture simultaneously trained across
multiple participants. Finally, the analysis of the decoder's predictions
suggests that they primarily depend on lexical and contextual semantic
representations. Overall, this effective decoding of perceived speech from
non-invasive recordings delineates a promising path to decode language from
brain activity, without putting patients at risk for brain surgery.
- Abstract(参考訳): 脳活動からスピーチを復号することは、医療と神経科学の両方において待望の目標である。
頭蓋内記録で訓練されたディープラーニングアルゴリズムは、現在、基本的な言語的特徴(例えば、文字、単語、分光図)をデコードし始めている。
しかし、このアプローチを自然言語や非侵襲的な脳記録に拡張することは大きな課題である。
本稿では,健常者の大きなコホートの非侵襲的記録から知覚音声の自己教師あり表現を解読するために,コントラスト学習で学習したモデルを紹介する。
本手法を評価するために,脳磁図(M/EEG)を収録したボランティア175名を対象に,短い話や孤立した文章を聴きながら4つの公開データセットをキュレートし,統合した。
その結果,本モデルでは,3秒間のMEG信号から最大41%の精度で,参加者間で平均1,000以上の異なる可能性を持つ音声区間を識別でき,80%以上の参加者が,トレーニングセットから欠落した単語やフレーズの復号を行うことができることがわかった。
モデルとさまざまなベースラインの比較は,その重要性を強調している。
(i)反対の目的,反対の目的.
(ii)スピーチの事前学習表現、及び
(iii)複数の参加者にまたがって同時に訓練された共通の畳み込みアーキテクチャ。
最後に、デコーダの予測の分析は、主に語彙的および文脈的意味表現に依存することを示唆している。
全体として、この非侵襲的な記録からの知覚音声の効果的な復号化は、患者を脳手術の危険に晒すことなく、言語を脳活動から復号する有望な道を示す。
関連論文リスト
- Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。
それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-14T07:20:08Z) - Decoding Continuous Character-based Language from Non-invasive Brain Recordings [33.11373366800627]
本研究では,単心的非侵襲的fMRI記録から連続言語を復号する手法を提案する。
文字ベースのデコーダは、固有の文字構造を特徴とする連続言語の意味的再構成のために設計されている。
被験者間での単一の試行から連続言語を復号化できることは、非侵襲的な言語脳-コンピュータインタフェースの有望な応用を実証している。
論文 参考訳(メタデータ) (2024-03-17T12:12:33Z) - BrainBERT: Self-supervised representation learning for intracranial
recordings [18.52962864519609]
我々は、神経科学に現代的な表現学習アプローチをもたらす頭蓋内記録のための再利用可能な変換器BrainBERTを開発した。
NLPや音声認識と同様に、この変換器は複雑な概念を高い精度で、はるかに少ないデータで分類することができる。
将来的には、表現学習を使用することで、はるかに多くの概念がニューラル録音から切り離され、言語モデルがアンロックされた言語のように脳をアンロックする可能性がある。
論文 参考訳(メタデータ) (2023-02-28T07:40:37Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。