論文の概要: Decoding speech from non-invasive brain recordings
- arxiv url: http://arxiv.org/abs/2208.12266v1
- Date: Thu, 25 Aug 2022 10:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:44:17.622915
- Title: Decoding speech from non-invasive brain recordings
- Title(参考訳): 非侵襲的脳記録からの音声の復号
- Authors: Alexandre D\'efossez, Charlotte Caucheteux, J\'er\'emy Rapin, Ori
Kabeli, Jean-R\'emi King
- Abstract要約: 本研究では,自然言語の自己教師付き表現を予測するために,コントラスト学習を訓練した単一エンドツーエンドアーキテクチャを提案する。
我々のモデルは、3sのMEG信号から、最大72.5%の音声区間を1,594個の異なる区間で識別することができる。
- 参考スコア(独自算出の注目度): 62.19441737665901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoding language from brain activity is a long-awaited goal in both
healthcare and neuroscience. Major milestones have recently been reached thanks
to intracranial devices: subject-specific pipelines trained on invasive brain
responses to basic language tasks now start to efficiently decode interpretable
features (e.g. letters, words, spectrograms). However, scaling this approach to
natural speech and non-invasive brain recordings remains a major challenge.
Here, we propose a single end-to-end architecture trained with contrastive
learning across a large cohort of individuals to predict self-supervised
representations of natural speech. We evaluate our model on four public
datasets, encompassing 169 volunteers recorded with magneto- or
electro-encephalography (M/EEG), while they listened to natural speech. The
results show that our model can identify, from 3s of MEG signals, the
corresponding speech segment with up to 72.5% top-10 accuracy out of 1,594
distinct segments (and 44% top-1 accuracy), and up to 19.1% out of 2,604
segments for EEG recordings -- hence allowing the decoding of phrases absent
from the training set. Model comparison and ablation analyses show that these
performances directly benefit from our original design choices, namely the use
of (i) a contrastive objective, (ii) pretrained representations of speech and
(iii) a common convolutional architecture simultaneously trained across several
participants. Together, these results delineate a promising path to decode
natural language processing in real time from non-invasive recordings of brain
activity.
- Abstract(参考訳): 脳の活動から言語を解読することは、医療と神経科学の両方において待望の目標である。
基本的な言語タスクに対する侵入的な脳反応を訓練した被験者固有のパイプラインは、解釈可能な特徴(例えば、文字、単語、分光図)を効率的にデコードし始める。
しかし、このアプローチを自然言語や非侵襲的な脳記録に拡張することは大きな課題である。
本稿では,自然言語の自己教師型表現を予測するために,個人の大きなコホートをまたいだコントラスト学習を訓練した単一エンドツーエンドアーキテクチャを提案する。
自然発話を聴きながら脳磁図(m/eeg)で記録した169名のボランティアを対象に,4つの公開データセットを用いて評価を行った。
その結果、meg信号の3sから、対応する音声セグメントが1,594個の異なるセグメント(44%のtop-1精度)のうち最大72.5%の精度で、脳波記録の2,604個のセグメントのうち最大19.1%の精度で識別できることが分かった。
モデル比較とアブレーション分析は、これらのパフォーマンスが、我々の設計選択、すなわち、使用によって直接的に利益を得ることを示している。
(i)反対の目的,反対の目的.
(ii)スピーチの事前学習表現、及び
(iii)複数の参加者間で同時に訓練された共通畳み込みアーキテクチャ。
これらの結果は、脳活動の非侵襲的記録から自然言語処理をリアルタイムでデコードするための有望な経路を示している。
関連論文リスト
- BrainBERT: Self-supervised representation learning for intracranial
recordings [18.52962864519609]
我々は、神経科学に現代的な表現学習アプローチをもたらす頭蓋内記録のための再利用可能な変換器BrainBERTを開発した。
NLPや音声認識と同様に、この変換器は複雑な概念を高い精度で、はるかに少ないデータで分類することができる。
将来的には、表現学習を使用することで、はるかに多くの概念がニューラル録音から切り離され、言語モデルがアンロックされた言語のように脳をアンロックする可能性がある。
論文 参考訳(メタデータ) (2023-02-28T07:40:37Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Comparing Supervised Models And Learned Speech Representations For
Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。
各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文 参考訳(メタデータ) (2021-07-08T17:24:25Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。