Fugu-MT 論文翻訳(概要): Inductive biases, pretraining and fine-tuning jointly account for brain responses to speech

論文の概要: Inductive biases, pretraining and fine-tuning jointly account for brain responses to speech

arxiv url: http://arxiv.org/abs/2103.01032v1
Date: Thu, 25 Feb 2021 19:11:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-05 08:40:58.710088
Title: Inductive biases, pretraining and fine-tuning jointly account for brain responses to speech
Title（参考訳）: インダクティブバイアス、事前学習、微調整は発話に対する脳の反応を左右する
Authors: Juliette Millet, Jean-Remi King
Abstract要約: 5種類のディープニューラルネットワークと音声文による人間の脳反応を比較した。ネットワーク間の脳相似性の違いは3つの主要な結果を示した。
参考スコア（独自算出の注目度）: 6.87854783185243
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Our ability to comprehend speech remains, to date, unrivaled by deep learning models. This feat could result from the brain's ability to fine-tune generic sound representations for speech-specific processes. To test this hypothesis, we compare i) five types of deep neural networks to ii) human brain responses elicited by spoken sentences and recorded in 102 Dutch subjects using functional Magnetic Resonance Imaging (fMRI). Each network was either trained on an acoustics scene classification, a speech-to-text task (based on Bengali, English, or Dutch), or not trained. The similarity between each model and the brain is assessed by correlating their respective activations after an optimal linear projection. The differences in brain-similarity across networks revealed three main results. First, speech representations in the brain can be accounted for by random deep networks. Second, learning to classify acoustic scenes leads deep nets to increase their brain similarity. Third, learning to process phonetically-related speech inputs (i.e., Dutch vs English) leads deep nets to reach higher levels of brain-similarity than learning to process phonetically-distant speech inputs (i.e. Dutch vs Bengali). Together, these results suggest that the human brain fine-tunes its heavily-trained auditory hierarchy to learn to process speech.
Abstract（参考訳）: 音声を理解できる能力は、現在に至るまで、ディープラーニングモデルに左右されないままである。この偉業は、音声特異的なプロセスのための一般的な音の表現を微調整する脳の能力から生じる可能性がある。この仮説を検証するために, 機能的磁気共鳴画像(fMRI)を用いて, オランダ人102名の被験者を対象に, 5種類の深部ニューラルネットワークと音声文によるヒト脳反応を比較した。各ネットワークは、音響シーンの分類、音声からテキストへのタスク(ベンガル語、英語、オランダ語に基づく)、あるいは訓練されていない。各モデルと脳の類似性は、最適線形投影後のそれぞれの活性化を関連づけることで評価される。ネットワーク間の脳相似性の違いは3つの主要な結果を示した。まず、脳内の音声表現は、ランダムなディープネットワークによって説明できる。第二に、音響シーンの分類を学ぶことで、深い網が脳の類似性を高める。第3に、音声関連音声入力(オランダ語対英語)を処理する学習は、深層ネットを学習よりも高いレベルの脳相似性に導く。オランダ対ベンガル)。これらの結果から,人間の脳は音声処理を学ぶために,高度に訓練された聴覚階層を微調整していることが示唆された。

関連論文リスト

Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文参考訳（メタデータ） (2024-11-14T07:20:08Z)
Improving Semantic Understanding in Speech Language Models via Brain-tuning [19.732593005537606]
言語モデルは、人間の脳の自然言語に対する反応と驚くほど一致している。現在のモデルは低レベルの音声機能に大きく依存しており、脳関連セマンティクスが欠如していることを示している。我々は、fMRI記録による微調整により、脳関連バイアスを直接モデルに誘導することで、この制限に対処する。
論文参考訳（メタデータ） (2024-10-11T20:06:21Z)
SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文参考訳（メタデータ） (2024-09-17T02:36:10Z)
Towards Decoding Brain Activity During Passive Listening of Speech [0.0]
深層学習法を用いて頭蓋内脳波(iEEG)データから発声音声を復号しようとする。このアプローチは、従来の音声生成の焦点から外れ、知覚された音声の神経表現を調査することを選択する。アプローチはまだ画期的な成果を上げていないが、この研究は、音声認識中の神経活動の復号化の可能性に光を当てている。
論文参考訳（メタデータ） (2024-02-26T20:04:01Z)
Do self-supervised speech and language models extract similar representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文参考訳（メタデータ） (2023-10-07T01:39:56Z)
Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文参考訳（メタデータ） (2022-08-25T10:01:43Z)
Neural Language Models are not Born Equal to Fit Brain Data, but Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文参考訳（メタデータ） (2022-07-07T15:37:17Z)
Toward a realistic model of speech processing in the brain with self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。 We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文参考訳（メタデータ） (2022-06-03T17:01:46Z)
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-12T15:30:21Z)
"Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文参考訳（メタデータ） (2020-06-12T06:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。