論文の概要: Do self-supervised speech and language models extract similar
representations as human brain?
- arxiv url: http://arxiv.org/abs/2310.04645v2
- Date: Wed, 31 Jan 2024 09:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 17:41:59.827996
- Title: Do self-supervised speech and language models extract similar
representations as human brain?
- Title(参考訳): 自己教師型音声と言語モデルは人間の脳と同様の表現を抽出するか?
- Authors: Peili Chen, Linyang He, Li Fu, Lu Fan, Edward F. Chang, Yuanning Li
- Abstract要約: 自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
- 参考スコア(独自算出の注目度): 2.390915090736061
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech and language models trained through self-supervised learning (SSL)
demonstrate strong alignment with brain activity during speech and language
perception. However, given their distinct training modalities, it remains
unclear whether they correlate with the same neural aspects. We directly
address this question by evaluating the brain prediction performance of two
representative SSL models, Wav2Vec2.0 and GPT-2, designed for speech and
language tasks. Our findings reveal that both models accurately predict speech
responses in the auditory cortex, with a significant correlation between their
brain predictions. Notably, shared speech contextual information between
Wav2Vec2.0 and GPT-2 accounts for the majority of explained variance in brain
activity, surpassing static semantic and lower-level acoustic-phonetic
information. These results underscore the convergence of speech contextual
representations in SSL models and their alignment with the neural network
underlying speech perception, offering valuable insights into both SSL models
and the neural basis of speech and language processing.
- Abstract(参考訳): 自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
しかし、異なるトレーニングのモダリティを考えると、それらが同じ神経的側面と相関しているかどうかは不明だ。
本稿では,2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価することで,この問題を直接解決する。
以上の結果から,両モデルとも聴覚野の発話応答を正確に予測し,脳の予測に有意な相関を示した。
特に、Wav2Vec2.0 と GPT-2 間の音声コンテキスト情報の共有は、静的意味情報と低レベル音響音声情報を上回る、説明された脳活動のばらつきの大部分を占める。
これらの結果は、SSLモデルにおける音声文脈表現の収束と、その基盤となる音声知覚との整合性を強調し、SSLモデルと音声および言語処理のニューラルネットワークに関する貴重な洞察を提供する。
関連論文リスト
- Improving semantic understanding in speech language models via brain-tuning [19.732593005537606]
言語モデルは、人間の脳の自然言語に対する反応と驚くほど一致している。
現在のモデルは低レベルの音声機能に大きく依存しており、脳関連セマンティクスが欠如していることを示している。
我々は、fMRI記録による微調整により、脳関連バイアスを直接モデルに誘導することで、この制限に対処する。
論文 参考訳(メタデータ) (2024-10-11T20:06:21Z) - What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - Speech language models lack important brain-relevant semantics [6.626540321463248]
近年の研究では、テキストベースの言語モデルは、テキスト誘発脳活動と音声誘発脳活動の両方を驚くほど予測している。
このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。
論文 参考訳(メタデータ) (2023-11-08T13:11:48Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Inductive biases, pretraining and fine-tuning jointly account for brain
responses to speech [6.87854783185243]
5種類のディープニューラルネットワークと音声文による人間の脳反応を比較した。
ネットワーク間の脳相似性の違いは3つの主要な結果を示した。
論文 参考訳(メタデータ) (2021-02-25T19:11:55Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。