論文の概要: Brain-tuned Speech Models Better Reflect Speech Processing Stages in the Brain
- arxiv url: http://arxiv.org/abs/2506.03832v1
- Date: Wed, 04 Jun 2025 10:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.296166
- Title: Brain-tuned Speech Models Better Reflect Speech Processing Stages in the Brain
- Title(参考訳): 脳調整音声モデルによる脳内音声処理過程の改善
- Authors: Omer Moussa, Mariya Toneva,
- Abstract要約: 自己教師型音声モデルは、音声処理において優れているが、人間の音声処理の階層構造を反映しない。
近年の研究では、人間の脳記録を用いた脳チューニングモデルにより、音声モデルのセマンティック理解が改善されている。
脳に調整されたモデルの後期層は、セマンティック言語領域との整合性において、事前訓練されたモデルよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 4.652236080354487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained self-supervised speech models excel in speech tasks but do not reflect the hierarchy of human speech processing, as they encode rich semantics in middle layers and poor semantics in late layers. Recent work showed that brain-tuning (fine-tuning models using human brain recordings) improves speech models' semantic understanding. Here, we examine how well brain-tuned models further reflect the brain's intermediate stages of speech processing. We find that late layers of brain-tuned models substantially improve over pretrained models in their alignment with semantic language regions. Further layer-wise probing reveals that early layers remain dedicated to low-level acoustic features, while late layers become the best at complex high-level tasks. These findings show that brain-tuned models not only perform better but also exhibit a well-defined hierarchical processing going from acoustic to semantic representations, making them better model organisms for human speech processing.
- Abstract(参考訳): 事前訓練された自己教師付き音声モデルは、音声処理において優れているが、中層におけるリッチな意味論と後期層における貧弱な意味論をエンコードするため、人間の音声処理の階層構造を反映しない。
近年の研究では、脳チューニング(人間の脳記録を用いた微調整モデル)が音声モデルのセマンティック理解を改善することが示されている。
そこで本研究では,脳に調整されたモデルが,脳の中間段階の音声処理をよりよく反映しているかを検討する。
脳に調整されたモデルの後期層は、セマンティック言語領域との整合性において、事前訓練されたモデルよりも大幅に改善されている。
さらにレイヤワイズ探索により、初期層は低レベルの音響的特徴にのみ依存し、後期層は複雑なハイレベルなタスクに最適であることが分かる。
これらの結果から,脳構造モデルの性能は向上するだけでなく,アコースティックな表現からセマンティックな表現に至るまで,適切に定義された階層的な処理が示され,人間の音声処理のためのモデル生物がより優れていることが示唆された。
関連論文リスト
- BrainWavLM: Fine-tuning Speech Representations with Brain Responses to Language [43.53912137735093]
音声符号化モデルは、人間の脳が音声言語刺激にどのように反応するかを予測するために聴覚表現を使用する。
本研究では、ローランク適応(LoRA)を用いて、脳のエンコーディング目的に基づいて、WavLMベースのエンコーディングモデルをエンド・ツー・エンドに微調整する。
また,全大脳皮質の微調整により,LoRAを使わずより高い安定性で平均符号化性能が向上することを示した。
論文 参考訳(メタデータ) (2025-02-13T00:37:27Z) - Improving Semantic Understanding in Speech Language Models via Brain-tuning [19.732593005537606]
言語モデルは、人間の脳の自然言語に対する反応と驚くほど一致している。
現在のモデルは低レベルの音声機能に大きく依存しており、脳関連セマンティクスが欠如していることを示している。
我々は、fMRI記録による微調整により、脳関連バイアスを直接モデルに誘導することで、この制限に対処する。
論文 参考訳(メタデータ) (2024-10-11T20:06:21Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。