論文の概要: BrainWavLM: Fine-tuning Speech Representations with Brain Responses to Language
- arxiv url: http://arxiv.org/abs/2502.08866v1
- Date: Thu, 13 Feb 2025 00:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:58.260750
- Title: BrainWavLM: Fine-tuning Speech Representations with Brain Responses to Language
- Title(参考訳): BrainWavLM: 言語に対する脳反応を考慮した微調整音声表現
- Authors: Nishitha Vattikonda, Aditya R. Vaidya, Richard J. Antonello, Alexander G. Huth,
- Abstract要約: 音声符号化モデルは、人間の脳が音声言語刺激にどのように反応するかを予測するために聴覚表現を使用する。
本研究では、ローランク適応(LoRA)を用いて、脳のエンコーディング目的に基づいて、WavLMベースのエンコーディングモデルをエンド・ツー・エンドに微調整する。
また,全大脳皮質の微調整により,LoRAを使わずより高い安定性で平均符号化性能が向上することを示した。
- 参考スコア(独自算出の注目度): 43.53912137735093
- License:
- Abstract: Speech encoding models use auditory representations to predict how the human brain responds to spoken language stimuli. Most performant encoding models linearly map the hidden states of artificial neural networks to brain data, but this linear restriction may limit their effectiveness. In this work, we use low-rank adaptation (LoRA) to fine-tune a WavLM-based encoding model end-to-end on a brain encoding objective, producing a model we name BrainWavLM. We show that fine-tuning across all of cortex improves average encoding performance with greater stability than without LoRA. This improvement comes at the expense of low-level regions like auditory cortex (AC), but selectively fine-tuning on these areas improves performance in AC, while largely retaining gains made in the rest of cortex. Fine-tuned models generalized across subjects, indicating that they learned robust brain-like representations of the speech stimuli. Finally, by training linear probes, we showed that the brain data strengthened semantic representations in the speech model without any explicit annotations. Our results demonstrate that brain fine-tuning produces best-in-class speech encoding models, and that non-linear methods have the potential to bridge the gap between artificial and biological representations of semantics.
- Abstract(参考訳): 音声符号化モデルは、人間の脳が音声言語刺激にどのように反応するかを予測するために聴覚表現を使用する。
ほとんどのパフォーマンスエンコーディングモデルは、ニューラルネットワークの隠れた状態を脳データに線形にマッピングするが、この線形制限は、その有効性を制限する可能性がある。
本研究では、低ランク適応(LoRA)を用いて、脳のエンコーディング目的に基づいて、WavLMベースのエンコーディングモデルをエンドツーエンドで微調整し、BrainWavLMという名前のモデルを作成する。
また,全大脳皮質の微調整により,LoRAを使わずより高い安定性で平均符号化性能が向上することを示した。
この改善は聴覚野(AC)のような低レベルの領域を犠牲にするが、これらの領域を選択的に微調整することでACの性能が向上し、残りの領域で得られる利得は大幅に維持される。
微調整されたモデルは、被験者全体に一般化され、音声刺激の頑健な脳様表現を学習したことを示している。
最後に、線形プローブの訓練により、明示的なアノテーションを使わずに、音声モデルにおける意味表現が強化されたことを示す。
以上の結果から,脳の微調整により最良音声符号化モデルが生成され,意味論の人工的表現と生物学的表現のギャップを埋める可能性が示唆された。
関連論文リスト
- Improving semantic understanding in speech language models via brain-tuning [19.732593005537606]
言語モデルは、人間の脳の自然言語に対する反応と驚くほど一致している。
現在のモデルは低レベルの音声機能に大きく依存しており、脳関連セマンティクスが欠如していることを示している。
我々は、fMRI記録による微調整により、脳関連バイアスを直接モデルに誘導することで、この制限に対処する。
論文 参考訳(メタデータ) (2024-10-11T20:06:21Z) - Language Reconstruction with Brain Predictive Coding from fMRI Data [28.217967547268216]
予測符号化の理論は、人間の脳が将来的な単語表現を継続的に予測していることを示唆している。
textscPredFTは、BLEU-1スコアが最大27.8%$の最先端のデコード性能を実現する。
論文 参考訳(メタデータ) (2024-05-19T16:06:02Z) - Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals [5.283718601431859]
エレクトロコルチコグラフィー(ECoG)を用いた脳-コンピュータインタフェースは,医療応用における高性能音声復号化を約束している。
離散コーデックス誘導マスクモデリングにより,領域レベルのトークンに基づくコンテキスト埋め込みを抽出するDu-INモデルを開発した。
本モデルでは,61ワードの分類タスクにおいて,すべてのベースラインを越えながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-19T06:00:36Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Scaling laws for language encoding models in fMRI [47.498241053872924]
我々は、fMRIを用いて記録された脳の反応を予測するために、より大きなオープンソースモデルの方が優れているかどうかを検証した。
同様の対数行動は、fMRIトレーニングセットのサイズを拡大する際に観察された。
これらの結果は、脳内の言語処理の極めて効果的なモデルが得られることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:53:03Z) - BrainBERT: Self-supervised representation learning for intracranial
recordings [18.52962864519609]
我々は、神経科学に現代的な表現学習アプローチをもたらす頭蓋内記録のための再利用可能な変換器BrainBERTを開発した。
NLPや音声認識と同様に、この変換器は複雑な概念を高い精度で、はるかに少ないデータで分類することができる。
将来的には、表現学習を使用することで、はるかに多くの概念がニューラル録音から切り離され、言語モデルがアンロックされた言語のように脳をアンロックする可能性がある。
論文 参考訳(メタデータ) (2023-02-28T07:40:37Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。