Fugu-MT 論文翻訳(概要): Improving semantic understanding in speech language models via brain-tuning

論文の概要: Improving semantic understanding in speech language models via brain-tuning

arxiv url: http://arxiv.org/abs/2410.09230v1
Date: Tue, 15 Oct 2024 16:39:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 15:43:17.594062
Title: Improving semantic understanding in speech language models via brain-tuning
Title（参考訳）: 脳チューニングによる言語モデルにおける意味理解の改善
Authors: Omer Moussa, Dietrich Klakow, Mariya Toneva,
Abstract要約: 言語モデルは、自然言語に対する人間の脳反応と驚くほど一致している。現在のモデルは低レベルの音声機能に大きく依存しており、脳関連セマンティクスが欠如していることを示している。
参考スコア（独自算出の注目度）: 19.732593005537606
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech-language models align impressively with human brain responses to natural language. However, current models rely heavily on low-level speech features, indicating they lack brain-relevant semantics, limiting their utility as models of semantic processing in the brain. In this work, we address this limitation by inducing brain-relevant bias into the models via fine-tuning with fMRI recordings of people listening to natural stories, a process we call brain-tuning. After testing it on three different pretrained backbones, we show that brain-tuning improves alignment with new brain recordings in semantic language regions and reduces reliance on low-level speech features. Notably, brain-tuning leads to 1) consistent improvements in performance across various downstream tasks and 2) a representational space with increased semantic preference. Our results provide the first evidence that incorporating brain signals into the training of language models improves their semantic understanding.
Abstract（参考訳）: 言語モデルは、自然言語に対する人間の脳反応と驚くほど一致している。しかし、現在のモデルは低レベルの音声機能に大きく依存しており、脳関連セマンティクスが欠如していることを示し、脳内のセマンティクス処理のモデルとしての有用性を制限している。本研究では、自然の物語を聴く人々のfMRI記録を微調整することで、脳関連バイアスをモデルに誘導することで、この制限に対処する。 3つの異なる事前訓練されたバックボーンでテストした後、脳チューニングはセマンティック言語領域における新しい脳記録との整合性を改善し、低レベルの音声特徴への依存を低減する。特に脳のチューニングは 1)ダウンストリームタスクにおけるパフォーマンスの整合性向上 2)意味的嗜好が増大した表現空間。本研究は,脳波を言語モデルの訓練に組み込むことで,意味的理解が向上することを示す最初の証拠である。

関連論文リスト

Brain-tuned Speech Models Better Reflect Speech Processing Stages in the Brain [4.652236080354487]
自己教師型音声モデルは、音声処理において優れているが、人間の音声処理の階層構造を反映しない。近年の研究では、人間の脳記録を用いた脳チューニングモデルにより、音声モデルのセマンティック理解が改善されている。脳に調整されたモデルの後期層は、セマンティック言語領域との整合性において、事前訓練されたモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-06-04T10:59:11Z)
BrainWavLM: Fine-tuning Speech Representations with Brain Responses to Language [43.53912137735093]
音声符号化モデルは、人間の脳が音声言語刺激にどのように反応するかを予測するために聴覚表現を使用する。本研究では、ローランク適応(LoRA)を用いて、脳のエンコーディング目的に基づいて、WavLMベースのエンコーディングモデルをエンド・ツー・エンドに微調整する。また,全大脳皮質の微調整により,LoRAを使わずより高い安定性で平均符号化性能が向上することを示した。
論文参考訳（メタデータ） (2025-02-13T00:37:27Z)
Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-21T12:54:03Z)
SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文参考訳（メタデータ） (2024-04-08T15:21:17Z)
Speech language models lack important brain-relevant semantics [6.626540321463248]
近年の研究では、テキストベースの言語モデルは、テキスト誘発脳活動と音声誘発脳活動の両方を驚くほど予測している。このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。
論文参考訳（メタデータ） (2023-11-08T13:11:48Z)
Do self-supervised speech and language models extract similar representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文参考訳（メタデータ） (2023-10-07T01:39:56Z)
Fine-tuned vs. Prompt-tuned Supervised Representations: Which Better Account for Brain Language Representations? [30.495681024162835]
我々は、ニューラルデコーディングにおいて、プロンプト調整された表現と微調整された表現を比較した。より脳に一貫性のあるチューニング手法では、脳データと相関する表現が得られます。これは、私たちの脳が浅い構文情報よりもきめ細かい概念情報を符号化していることを示している。
論文参考訳（メタデータ） (2023-10-03T07:34:30Z)
Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文参考訳（メタデータ） (2022-08-25T10:01:43Z)
Neural Language Models are not Born Equal to Fit Brain Data, but Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文参考訳（メタデータ） (2022-07-07T15:37:17Z)
Toward a realistic model of speech processing in the brain with self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。 We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文参考訳（メタデータ） (2022-06-03T17:01:46Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-12T15:30:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。