論文の概要: Inductive biases, pretraining and fine-tuning jointly account for brain
responses to speech
- arxiv url: http://arxiv.org/abs/2103.01032v1
- Date: Thu, 25 Feb 2021 19:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 08:40:58.710088
- Title: Inductive biases, pretraining and fine-tuning jointly account for brain
responses to speech
- Title(参考訳): インダクティブバイアス、事前学習、微調整は発話に対する脳の反応を左右する
- Authors: Juliette Millet, Jean-Remi King
- Abstract要約: 5種類のディープニューラルネットワークと音声文による人間の脳反応を比較した。
ネットワーク間の脳相似性の違いは3つの主要な結果を示した。
- 参考スコア(独自算出の注目度): 6.87854783185243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our ability to comprehend speech remains, to date, unrivaled by deep learning
models. This feat could result from the brain's ability to fine-tune generic
sound representations for speech-specific processes. To test this hypothesis,
we compare i) five types of deep neural networks to ii) human brain responses
elicited by spoken sentences and recorded in 102 Dutch subjects using
functional Magnetic Resonance Imaging (fMRI). Each network was either trained
on an acoustics scene classification, a speech-to-text task (based on Bengali,
English, or Dutch), or not trained. The similarity between each model and the
brain is assessed by correlating their respective activations after an optimal
linear projection. The differences in brain-similarity across networks revealed
three main results. First, speech representations in the brain can be accounted
for by random deep networks. Second, learning to classify acoustic scenes leads
deep nets to increase their brain similarity. Third, learning to process
phonetically-related speech inputs (i.e., Dutch vs English) leads deep nets to
reach higher levels of brain-similarity than learning to process
phonetically-distant speech inputs (i.e. Dutch vs Bengali). Together, these
results suggest that the human brain fine-tunes its heavily-trained auditory
hierarchy to learn to process speech.
- Abstract(参考訳): 音声を理解できる能力は、現在に至るまで、ディープラーニングモデルに左右されないままである。
この偉業は、音声特異的なプロセスのための一般的な音の表現を微調整する脳の能力から生じる可能性がある。
この仮説を検証するために, 機能的磁気共鳴画像(fMRI)を用いて, オランダ人102名の被験者を対象に, 5種類の深部ニューラルネットワークと音声文によるヒト脳反応を比較した。
各ネットワークは、音響シーンの分類、音声からテキストへのタスク(ベンガル語、英語、オランダ語に基づく)、あるいは訓練されていない。
各モデルと脳の類似性は、最適線形投影後のそれぞれの活性化を関連づけることで評価される。
ネットワーク間の脳相似性の違いは3つの主要な結果を示した。
まず、脳内の音声表現は、ランダムなディープネットワークによって説明できる。
第二に、音響シーンの分類を学ぶことで、深い網が脳の類似性を高める。
第3に、音声関連音声入力(オランダ語対英語)を処理する学習は、深層ネットを学習よりも高いレベルの脳相似性に導く。
オランダ対ベンガル)。
これらの結果から,人間の脳は音声処理を学ぶために,高度に訓練された聴覚階層を微調整していることが示唆された。
関連論文リスト
- Towards Decoding Brain Activity During Passive Listening of Speech [0.0]
深層学習法を用いて頭蓋内脳波(iEEG)データから発声音声を復号しようとする。
このアプローチは、従来の音声生成の焦点から外れ、知覚された音声の神経表現を調査することを選択する。
アプローチはまだ画期的な成果を上げていないが、この研究は、音声認識中の神経活動の復号化の可能性に光を当てている。
論文 参考訳(メタデータ) (2024-02-26T20:04:01Z) - Do self-supervised speech and language models extract similar
representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文 参考訳(メタデータ) (2023-10-07T01:39:56Z) - Fine-tuned vs. Prompt-tuned Supervised Representations: Which Better
Account for Brain Language Representations? [30.495681024162835]
我々は、ニューラルデコーディングにおいて、プロンプト調整された表現と微調整された表現を比較した。
より脳に一貫性のあるチューニング手法では、脳データと相関する表現が得られます。
これは、私たちの脳が浅い構文情報よりもきめ細かい概念情報を符号化していることを示している。
論文 参考訳(メタデータ) (2023-10-03T07:34:30Z) - Joint Audio and Speech Understanding [81.34673662385774]
我々はLTU-ASと呼ばれる機械学習モデルを構築し、概念的に類似した普遍的な音声知覚と高度な推論能力を持つ。
Whisperを知覚モジュールとして、LLaMAを推論モジュールとして統合することにより、LTU-ASは音声テキスト、音声パラ言語学、非音声音声イベントを同時に認識し、共同理解することができる。
論文 参考訳(メタデータ) (2023-09-25T17:59:05Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。