論文の概要: Inductive biases, pretraining and fine-tuning jointly account for brain
responses to speech
- arxiv url: http://arxiv.org/abs/2103.01032v1
- Date: Thu, 25 Feb 2021 19:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 08:40:58.710088
- Title: Inductive biases, pretraining and fine-tuning jointly account for brain
responses to speech
- Title(参考訳): インダクティブバイアス、事前学習、微調整は発話に対する脳の反応を左右する
- Authors: Juliette Millet, Jean-Remi King
- Abstract要約: 5種類のディープニューラルネットワークと音声文による人間の脳反応を比較した。
ネットワーク間の脳相似性の違いは3つの主要な結果を示した。
- 参考スコア(独自算出の注目度): 6.87854783185243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our ability to comprehend speech remains, to date, unrivaled by deep learning
models. This feat could result from the brain's ability to fine-tune generic
sound representations for speech-specific processes. To test this hypothesis,
we compare i) five types of deep neural networks to ii) human brain responses
elicited by spoken sentences and recorded in 102 Dutch subjects using
functional Magnetic Resonance Imaging (fMRI). Each network was either trained
on an acoustics scene classification, a speech-to-text task (based on Bengali,
English, or Dutch), or not trained. The similarity between each model and the
brain is assessed by correlating their respective activations after an optimal
linear projection. The differences in brain-similarity across networks revealed
three main results. First, speech representations in the brain can be accounted
for by random deep networks. Second, learning to classify acoustic scenes leads
deep nets to increase their brain similarity. Third, learning to process
phonetically-related speech inputs (i.e., Dutch vs English) leads deep nets to
reach higher levels of brain-similarity than learning to process
phonetically-distant speech inputs (i.e. Dutch vs Bengali). Together, these
results suggest that the human brain fine-tunes its heavily-trained auditory
hierarchy to learn to process speech.
- Abstract(参考訳): 音声を理解できる能力は、現在に至るまで、ディープラーニングモデルに左右されないままである。
この偉業は、音声特異的なプロセスのための一般的な音の表現を微調整する脳の能力から生じる可能性がある。
この仮説を検証するために, 機能的磁気共鳴画像(fMRI)を用いて, オランダ人102名の被験者を対象に, 5種類の深部ニューラルネットワークと音声文によるヒト脳反応を比較した。
各ネットワークは、音響シーンの分類、音声からテキストへのタスク(ベンガル語、英語、オランダ語に基づく)、あるいは訓練されていない。
各モデルと脳の類似性は、最適線形投影後のそれぞれの活性化を関連づけることで評価される。
ネットワーク間の脳相似性の違いは3つの主要な結果を示した。
まず、脳内の音声表現は、ランダムなディープネットワークによって説明できる。
第二に、音響シーンの分類を学ぶことで、深い網が脳の類似性を高める。
第3に、音声関連音声入力(オランダ語対英語)を処理する学習は、深層ネットを学習よりも高いレベルの脳相似性に導く。
オランダ対ベンガル)。
これらの結果から,人間の脳は音声処理を学ぶために,高度に訓練された聴覚階層を微調整していることが示唆された。
関連論文リスト
- Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。
それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-14T07:20:08Z) - SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Towards Decoding Brain Activity During Passive Listening of Speech [0.0]
深層学習法を用いて頭蓋内脳波(iEEG)データから発声音声を復号しようとする。
このアプローチは、従来の音声生成の焦点から外れ、知覚された音声の神経表現を調査することを選択する。
アプローチはまだ画期的な成果を上げていないが、この研究は、音声認識中の神経活動の復号化の可能性に光を当てている。
論文 参考訳(メタデータ) (2024-02-26T20:04:01Z) - Do self-supervised speech and language models extract similar
representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文 参考訳(メタデータ) (2023-10-07T01:39:56Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。