論文の概要: Toward a realistic model of speech processing in the brain with
self-supervised learning
- arxiv url: http://arxiv.org/abs/2206.01685v1
- Date: Fri, 3 Jun 2022 17:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 13:25:25.280110
- Title: Toward a realistic model of speech processing in the brain with
self-supervised learning
- Title(参考訳): 自己教師型学習による脳内音声処理の現実的モデルに向けて
- Authors: Juliette Millet, Charlotte Caucheteux, Pierre Orhan, Yves Boubenec,
Alexandre Gramfort, Ewan Dunbar, Christophe Pallier, Jean-Remi King
- Abstract要約: 生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
- 参考スコア(独自算出の注目度): 67.7130239674153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several deep neural networks have recently been shown to generate activations
similar to those of the brain in response to the same input. These algorithms,
however, remain largely implausible: they require (1) extraordinarily large
amounts of data, (2) unobtainable supervised labels, (3) textual rather than
raw sensory input, and / or (4) implausibly large memory (e.g. thousands of
contextual words). These elements highlight the need to identify algorithms
that, under these limitations, would suffice to account for both behavioral and
brain responses. Focusing on the issue of speech processing, we here
hypothesize that self-supervised algorithms trained on the raw waveform
constitute a promising candidate. Specifically, we compare a recent
self-supervised architecture, Wav2Vec 2.0, to the brain activity of 412
English, French, and Mandarin individuals recorded with functional Magnetic
Resonance Imaging (fMRI), while they listened to ~1h of audio books. Our
results are four-fold. First, we show that this algorithm learns brain-like
representations with as little as 600 hours of unlabelled speech -- a quantity
comparable to what infants can be exposed to during language acquisition.
Second, its functional hierarchy aligns with the cortical hierarchy of speech
processing. Third, different training regimes reveal a functional
specialization akin to the cortex: Wav2Vec 2.0 learns sound-generic,
speech-specific and language-specific representations similar to those of the
prefrontal and temporal cortices. Fourth, we confirm the similarity of this
specialization with the behavior of 386 additional participants. These
elements, resulting from the largest neuroimaging benchmark to date, show how
self-supervised learning can account for a rich organization of speech
processing in the brain, and thus delineate a path to identify the laws of
language acquisition which shape the human brain.
- Abstract(参考訳): 最近、いくつかのディープニューラルネットワークは、同じ入力に反応して脳のものと類似した活性化を生成することが示されている。
しかし、これらのアルゴリズムは、(1)極端に大量のデータ、(2)観測不能なラベル、(3)生の感覚入力ではなくテキスト、(4)信じられないほど大きなメモリ(例えば、数千の文脈単語)を必要とする。
これらの要素は、これらの制限の下で、行動と脳の反応の両方を考慮に入れなければならないアルゴリズムを特定する必要性を強調している。
本稿では,音声処理の問題に着目し,生波形で学習した自己教師付きアルゴリズムが有望な候補となることを仮定する。
具体的には,最近の自己監督型アーキテクチャであるwav2vec 2.0と,機能的磁気共鳴画像(fmri)で記録された412名の英語,フランス語,マンダリンの脳活動を比較し,オーディオブックの約1hを聴いた。
結果は4倍です。
まず、このアルゴリズムは、言語習得中に幼児が露出できる量に匹敵する、600時間ももたない音声で脳に似た表現を学習することを示す。
第二に、その機能階層は音声処理の皮質階層と整合する。
wav2vec 2.0は前頭前頭葉と側頭葉の皮質に類似した音声、音声、言語固有の表現を学習する。
第4に,この専門化と386人の追加参加者の行動の類似性を確認した。
これらの要素は、これまでで最大のニューロイメージング・ベンチマークから生まれたもので、自己教師付き学習が脳内の音声処理の豊富な組織をいかに説明できるかを示し、人間の脳を形作る言語習得の法則を特定するための道筋を示す。
関連論文リスト
- Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。
それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-14T07:20:08Z) - Do self-supervised speech and language models extract similar
representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文 参考訳(メタデータ) (2023-10-07T01:39:56Z) - BrainBERT: Self-supervised representation learning for intracranial
recordings [18.52962864519609]
我々は、神経科学に現代的な表現学習アプローチをもたらす頭蓋内記録のための再利用可能な変換器BrainBERTを開発した。
NLPや音声認識と同様に、この変換器は複雑な概念を高い精度で、はるかに少ないデータで分類することができる。
将来的には、表現学習を使用することで、はるかに多くの概念がニューラル録音から切り離され、言語モデルがアンロックされた言語のように脳をアンロックする可能性がある。
論文 参考訳(メタデータ) (2023-02-28T07:40:37Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Long-range and hierarchical language predictions in brains and
algorithms [82.81964713263483]
深層言語アルゴリズムは隣接した単語の予測に最適化されているが、人間の脳は長距離で階層的な予測を行うように調整されている。
本研究は、予測符号化理論を強化し、自然言語処理における長距離および階層的予測の重要な役割を示唆する。
論文 参考訳(メタデータ) (2021-11-28T20:26:07Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Inductive biases, pretraining and fine-tuning jointly account for brain
responses to speech [6.87854783185243]
5種類のディープニューラルネットワークと音声文による人間の脳反応を比較した。
ネットワーク間の脳相似性の違いは3つの主要な結果を示した。
論文 参考訳(メタデータ) (2021-02-25T19:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。