論文の概要: Speech language models lack important brain-relevant semantics
- arxiv url: http://arxiv.org/abs/2311.04664v1
- Date: Wed, 8 Nov 2023 13:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:48:48.580655
- Title: Speech language models lack important brain-relevant semantics
- Title(参考訳): 言語モデルには重要な脳関連意味論がない
- Authors: Subba Reddy Oota, Emin \c{C}elik, Fatma Deniz, Mariya Toneva
- Abstract要約: 近年の研究では、テキストベースの言語モデルは、テキスト誘発脳活動と音声誘発脳活動の両方を驚くほど予測している。
このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。
- 参考スコア(独自算出の注目度): 7.239019253787705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite known differences between reading and listening in the brain, recent
work has shown that text-based language models predict both text-evoked and
speech-evoked brain activity to an impressive degree. This poses the question
of what types of information language models truly predict in the brain. We
investigate this question via a direct approach, in which we eliminate
information related to specific low-level stimulus features (textual, speech,
and visual) in the language model representations, and observe how this
intervention affects the alignment with fMRI brain recordings acquired while
participants read versus listened to the same naturalistic stories. We further
contrast our findings with speech-based language models, which would be
expected to predict speech-evoked brain activity better, provided they model
language processing in the brain well. Using our direct approach, we find that
both text-based and speech-based language models align well with early sensory
regions due to shared low-level features. Text-based models continue to align
well with later language regions even after removing these features, while,
surprisingly, speech-based models lose most of their alignment. These findings
suggest that speech-based models can be further improved to better reflect
brain-like language processing.
- Abstract(参考訳): 脳の読書と聞き取りの違いは知られているが、最近の研究はテキストベースの言語モデルがテキスト誘発脳活動と音声誘発脳活動の両方を印象的な程度に予測していることを示している。
このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。
我々は,言語モデル表現における特定の低レベル刺激機能(テキスト,音声,視覚)に関する情報を排除し,この介入が,同じ自然主義的物語を読んだり聴いたりしながら取得したfMRI脳記録とのアライメントにどのように影響するかを観察する。
さらに,脳内の言語処理を十分にモデル化すれば,音声誘発脳活動の予測性が向上することが期待できる音声言語モデルと比較した。
直接的アプローチを用いて,テキストベースと音声ベースの言語モデルの両方が,低レベル機能共有による早期感覚領域に適合していることを見出した。
テキストベースのモデルは、これらの機能を削除した後でも、後続の言語領域とよく一致し続けています。
これらの結果は,脳的な言語処理をよりよく反映するために,音声ベースのモデルをさらに改善できることを示唆している。
関連論文リスト
- Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。
それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-14T07:20:08Z) - Improving semantic understanding in speech language models via brain-tuning [19.732593005537606]
言語モデルは、人間の脳の自然言語に対する反応と驚くほど一致している。
現在のモデルは低レベルの音声機能に大きく依存しており、脳関連セマンティクスが欠如していることを示している。
我々は、fMRI記録による微調整により、脳関連バイアスを直接モデルに誘導することで、この制限に対処する。
論文 参考訳(メタデータ) (2024-10-11T20:06:21Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Do self-supervised speech and language models extract similar
representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文 参考訳(メタデータ) (2023-10-07T01:39:56Z) - Joint processing of linguistic properties in brains and language models [14.997785690790032]
人間の脳と言語モデルによる言語情報の詳細な処理の対応について検討する。
特定の言語特性の除去は脳のアライメントを著しく低下させる。
これらの知見は、脳と言語モデルとの整合における特定の言語情報の役割の明確な証拠である。
論文 参考訳(メタデータ) (2022-12-15T19:13:42Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Neural Language Taskonomy: Which NLP Tasks are the most Predictive of
fMRI Brain Activity? [3.186888145772382]
人気のTransformerベースの言語モデルは、テキスト駆動型ブレインエンコーディングで成功している。
本研究では,10種類の自然言語処理タスクで学習した表現からの伝達学習について検討する。
10のタスク表現にまたがる実験は、以下の認知的洞察を提供する。
論文 参考訳(メタデータ) (2022-05-03T10:23:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。