Fugu-MT 論文翻訳(概要): Decoding speech from non-invasive brain recordings

論文の概要: Decoding speech from non-invasive brain recordings

arxiv url: http://arxiv.org/abs/2208.12266v1
Date: Thu, 25 Aug 2022 10:01:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-29 12:44:17.622915
Title: Decoding speech from non-invasive brain recordings
Title（参考訳）: 非侵襲的脳記録からの音声の復号
Authors: Alexandre D\'efossez, Charlotte Caucheteux, J\'er\'emy Rapin, Ori Kabeli, Jean-R\'emi King
Abstract要約: 本研究では,自然言語の自己教師付き表現を予測するために,コントラスト学習を訓練した単一エンドツーエンドアーキテクチャを提案する。我々のモデルは、3sのMEG信号から、最大72.5%の音声区間を1,594個の異なる区間で識別することができる。
参考スコア（独自算出の注目度）: 62.19441737665901
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decoding language from brain activity is a long-awaited goal in both healthcare and neuroscience. Major milestones have recently been reached thanks to intracranial devices: subject-specific pipelines trained on invasive brain responses to basic language tasks now start to efficiently decode interpretable features (e.g. letters, words, spectrograms). However, scaling this approach to natural speech and non-invasive brain recordings remains a major challenge. Here, we propose a single end-to-end architecture trained with contrastive learning across a large cohort of individuals to predict self-supervised representations of natural speech. We evaluate our model on four public datasets, encompassing 169 volunteers recorded with magneto- or electro-encephalography (M/EEG), while they listened to natural speech. The results show that our model can identify, from 3s of MEG signals, the corresponding speech segment with up to 72.5% top-10 accuracy out of 1,594 distinct segments (and 44% top-1 accuracy), and up to 19.1% out of 2,604 segments for EEG recordings -- hence allowing the decoding of phrases absent from the training set. Model comparison and ablation analyses show that these performances directly benefit from our original design choices, namely the use of (i) a contrastive objective, (ii) pretrained representations of speech and (iii) a common convolutional architecture simultaneously trained across several participants. Together, these results delineate a promising path to decode natural language processing in real time from non-invasive recordings of brain activity.
Abstract（参考訳）: 脳の活動から言語を解読することは、医療と神経科学の両方において待望の目標である。基本的な言語タスクに対する侵入的な脳反応を訓練した被験者固有のパイプラインは、解釈可能な特徴(例えば、文字、単語、分光図)を効率的にデコードし始める。しかし、このアプローチを自然言語や非侵襲的な脳記録に拡張することは大きな課題である。本稿では,自然言語の自己教師型表現を予測するために,個人の大きなコホートをまたいだコントラスト学習を訓練した単一エンドツーエンドアーキテクチャを提案する。自然発話を聴きながら脳磁図(m/eeg)で記録した169名のボランティアを対象に,4つの公開データセットを用いて評価を行った。その結果、meg信号の3sから、対応する音声セグメントが1,594個の異なるセグメント(44%のtop-1精度)のうち最大72.5%の精度で、脳波記録の2,604個のセグメントのうち最大19.1%の精度で識別できることが分かった。モデル比較とアブレーション分析は、これらのパフォーマンスが、我々の設計選択、すなわち、使用によって直接的に利益を得ることを示している。 (i)反対の目的,反対の目的. (ii)スピーチの事前学習表現、及び (iii)複数の参加者間で同時に訓練された共通畳み込みアーキテクチャ。これらの結果は、脳活動の非侵襲的記録から自然言語処理をリアルタイムでデコードするための有望な経路を示している。

関連論文リスト

Decoding Phone Pairs from MEG Signals Across Speech Modalities [0.4054486015338004]
脳磁図信号を用いて、音声生成や知覚タスク中の脳活動から携帯電話を復号する方法について検討した。その結果,受動聴取や再生モダリティと比較して,音声生成時の復号精度が有意に高かった。
論文参考訳（メタデータ） (2025-05-21T10:31:34Z)
sEEG-based Encoding for Sentence Retrieval: A Contrastive Learning Approach to Brain-Language Alignment [8.466223794246261]
本稿では,凍結したCLIPモデルの文埋め込み空間に単射ステレオ脳波信号(sEEG)を投影するコントラスト学習フレームワークであるSSENSEを提案する。本手法は,自然主義映画視聴データセットから,時系列のsEEGと音声の書き起こしについて評価する。
論文参考訳（メタデータ） (2025-04-20T03:01:42Z)
Decoding individual words from non-invasive brain recordings across 723 participants [9.9068852821927]
非侵襲的脳波(EEG)および脳磁図(MEG)信号から個々の単語を復号する新しいディープラーニングパイプラインを導入する。我々は、英語、フランス語、オランダ語で書かれた500万語に対して、前例のないほど多くの参加者に対して、我々のアプローチを訓練し、評価する。
論文参考訳（メタデータ） (2024-12-11T15:53:49Z)
Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文参考訳（メタデータ） (2024-11-14T07:20:08Z)
Decoding Continuous Character-based Language from Non-invasive Brain Recordings [33.11373366800627]
本研究では,単心的非侵襲的fMRI記録から連続言語を復号する手法を提案する。文字ベースのデコーダは、固有の文字構造を特徴とする連続言語の意味的再構成のために設計されている。被験者間での単一の試行から連続言語を復号化できることは、非侵襲的な言語脳-コンピュータインタフェースの有望な応用を実証している。
論文参考訳（メタデータ） (2024-03-17T12:12:33Z)
BrainBERT: Self-supervised representation learning for intracranial recordings [18.52962864519609]
我々は、神経科学に現代的な表現学習アプローチをもたらす頭蓋内記録のための再利用可能な変換器BrainBERTを開発した。 NLPや音声認識と同様に、この変換器は複雑な概念を高い精度で、はるかに少ないデータで分類することができる。将来的には、表現学習を使用することで、はるかに多くの概念がニューラル録音から切り離され、言語モデルがアンロックされた言語のように脳をアンロックする可能性がある。
論文参考訳（メタデータ） (2023-02-28T07:40:37Z)
Jointly Learning Visual and Auditory Speech Representations from Raw Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。 RAVEnは視覚音声認識における全自己指導手法を超越している。
論文参考訳（メタデータ） (2022-12-12T21:04:06Z)
Toward a realistic model of speech processing in the brain with self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。 We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文参考訳（メタデータ） (2022-06-03T17:01:46Z)
Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文参考訳（メタデータ） (2021-12-05T21:57:22Z)
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-12T15:30:21Z)
Deep Recurrent Encoder: A scalable end-to-end network to model brain signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。 1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文参考訳（メタデータ） (2021-03-03T11:39:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。