論文の概要: Decoding speech from non-invasive brain recordings
- arxiv url: http://arxiv.org/abs/2208.12266v1
- Date: Thu, 25 Aug 2022 10:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:44:17.622915
- Title: Decoding speech from non-invasive brain recordings
- Title(参考訳): 非侵襲的脳記録からの音声の復号
- Authors: Alexandre D\'efossez, Charlotte Caucheteux, J\'er\'emy Rapin, Ori
Kabeli, Jean-R\'emi King
- Abstract要約: 本研究では,自然言語の自己教師付き表現を予測するために,コントラスト学習を訓練した単一エンドツーエンドアーキテクチャを提案する。
我々のモデルは、3sのMEG信号から、最大72.5%の音声区間を1,594個の異なる区間で識別することができる。
- 参考スコア(独自算出の注目度): 62.19441737665901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding language from brain activity is a long-awaited goal in both
healthcare and neuroscience. Major milestones have recently been reached thanks
to intracranial devices: subject-specific pipelines trained on invasive brain
responses to basic language tasks now start to efficiently decode interpretable
features (e.g. letters, words, spectrograms). However, scaling this approach to
natural speech and non-invasive brain recordings remains a major challenge.
Here, we propose a single end-to-end architecture trained with contrastive
learning across a large cohort of individuals to predict self-supervised
representations of natural speech. We evaluate our model on four public
datasets, encompassing 169 volunteers recorded with magneto- or
electro-encephalography (M/EEG), while they listened to natural speech. The
results show that our model can identify, from 3s of MEG signals, the
corresponding speech segment with up to 72.5% top-10 accuracy out of 1,594
distinct segments (and 44% top-1 accuracy), and up to 19.1% out of 2,604
segments for EEG recordings -- hence allowing the decoding of phrases absent
from the training set. Model comparison and ablation analyses show that these
performances directly benefit from our original design choices, namely the use
of (i) a contrastive objective, (ii) pretrained representations of speech and
(iii) a common convolutional architecture simultaneously trained across several
participants. Together, these results delineate a promising path to decode
natural language processing in real time from non-invasive recordings of brain
activity.
- Abstract(参考訳): 脳の活動から言語を解読することは、医療と神経科学の両方において待望の目標である。
基本的な言語タスクに対する侵入的な脳反応を訓練した被験者固有のパイプラインは、解釈可能な特徴(例えば、文字、単語、分光図)を効率的にデコードし始める。
しかし、このアプローチを自然言語や非侵襲的な脳記録に拡張することは大きな課題である。
本稿では,自然言語の自己教師型表現を予測するために,個人の大きなコホートをまたいだコントラスト学習を訓練した単一エンドツーエンドアーキテクチャを提案する。
自然発話を聴きながら脳磁図(m/eeg)で記録した169名のボランティアを対象に,4つの公開データセットを用いて評価を行った。
その結果、meg信号の3sから、対応する音声セグメントが1,594個の異なるセグメント(44%のtop-1精度)のうち最大72.5%の精度で、脳波記録の2,604個のセグメントのうち最大19.1%の精度で識別できることが分かった。
モデル比較とアブレーション分析は、これらのパフォーマンスが、我々の設計選択、すなわち、使用によって直接的に利益を得ることを示している。
(i)反対の目的,反対の目的.
(ii)スピーチの事前学習表現、及び
(iii)複数の参加者間で同時に訓練された共通畳み込みアーキテクチャ。
これらの結果は、脳活動の非侵襲的記録から自然言語処理をリアルタイムでデコードするための有望な経路を示している。
関連論文リスト
- Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。
それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-14T07:20:08Z) - Decoding Continuous Character-based Language from Non-invasive Brain Recordings [33.11373366800627]
本研究では,単心的非侵襲的fMRI記録から連続言語を復号する手法を提案する。
文字ベースのデコーダは、固有の文字構造を特徴とする連続言語の意味的再構成のために設計されている。
被験者間での単一の試行から連続言語を復号化できることは、非侵襲的な言語脳-コンピュータインタフェースの有望な応用を実証している。
論文 参考訳(メタデータ) (2024-03-17T12:12:33Z) - BrainBERT: Self-supervised representation learning for intracranial
recordings [18.52962864519609]
我々は、神経科学に現代的な表現学習アプローチをもたらす頭蓋内記録のための再利用可能な変換器BrainBERTを開発した。
NLPや音声認識と同様に、この変換器は複雑な概念を高い精度で、はるかに少ないデータで分類することができる。
将来的には、表現学習を使用することで、はるかに多くの概念がニューラル録音から切り離され、言語モデルがアンロックされた言語のように脳をアンロックする可能性がある。
論文 参考訳(メタデータ) (2023-02-28T07:40:37Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。