Fugu-MT 論文翻訳(概要): Mind the Gap: Aligning the Brain with Language Models Requires a Nonlinear and Multimodal Approach

論文の概要: Mind the Gap: Aligning the Brain with Language Models Requires a Nonlinear and Multimodal Approach

arxiv url: http://arxiv.org/abs/2502.12771v1
Date: Tue, 18 Feb 2025 11:33:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.9294
Title: Mind the Gap: Aligning the Brain with Language Models Requires a Nonlinear and Multimodal Approach
Title（参考訳）: Mind the Gap: 言語モデルで脳を調整するには非線形でマルチモーダルなアプローチが必要である
Authors: Danny Dongyeop Han, Yunju Cho, Jiook Cha, Jay-Yoon Lee,
Abstract要約: 自己教師型言語と音声モデルは、音声に対する脳反応を効果的に予測する。従来の予測モデルは、ユニモーダル特徴からの線形写像に依存している。本稿では,事前学習モデルの音声特徴と言語特徴を組み合わせた非線形・マルチモーダル予測モデルを提案する。
参考スコア（独自算出の注目度）: 4.1606197342190105
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised language and audio models effectively predict brain responses to speech. However, traditional prediction models rely on linear mappings from unimodal features, despite the complex integration of auditory signals with linguistic and semantic information across widespread brain networks during speech comprehension. Here, we introduce a nonlinear, multimodal prediction model that combines audio and linguistic features from pre-trained models (e.g., LLAMA, Whisper). Our approach achieves a 17.2% and 17.9% improvement in prediction performance (unnormalized and normalized correlation) over traditional unimodal linear models, as well as a 7.7% and 14.4% improvement, respectively, over prior state-of-the-art models. These improvements represent a major step towards future robust in-silico testing and improved decoding performance. They also reveal how auditory and semantic information are fused in motor, somatosensory, and higher-level semantic regions, aligning with existing neurolinguistic theories. Overall, our work highlights the often neglected potential of nonlinear and multimodal approaches to brain modeling, paving the way for future studies to embrace these strategies in naturalistic neurolinguistics research.
Abstract（参考訳）: 自己教師型言語と音声モデルは、音声に対する脳反応を効果的に予測する。しかし、従来の予測モデルは、音声理解中に広範囲の脳ネットワークにまたがる言語的・意味的な情報と聴覚信号の複雑な統合にもかかわらず、一助的特徴からの線形マッピングに依存している。本稿では,事前学習したモデル(例えば,LAMA,Whisper)の音声特徴と言語特徴を組み合わせた非線形マルチモーダル予測モデルを提案する。提案手法は, 従来の一次元線形モデルよりも17.2%, 17.9%, 予測性能(非正規化および正規化相関)が向上し, 従来の最先端モデルよりも7.7%, 14.4%向上した。これらの改善は、将来の堅牢なイン・シリコテストへの大きな一歩であり、デコードのパフォーマンスが向上している。彼らはまた、既存の神経言語学理論と整合して、聴覚と意味情報を運動、体性感覚、および高レベルの意味領域で融合させる方法を明らかにした。全体として、我々の研究は、脳モデリングに対する非線形およびマルチモーダルアプローチの無視される可能性を強調し、これらの戦略を自然主義神経言語学研究に取り入れるための将来の研究の道を開く。

関連論文リスト

Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding [1.2233362977312945]
我々は,最先端視覚 (X-CLIP) と聴覚 (Whisper) 特徴抽出器を用いた脳符号化モデルを開発した。分布内(ID)データと分布外(OOD)データの両方を厳格に評価する。
論文参考訳（メタデータ） (2025-07-25T08:12:26Z)
Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文参考訳（メタデータ） (2024-12-23T10:23:47Z)
Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-07-25T10:08:37Z)
Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-21T12:54:03Z)
Navigating Brain Language Representations: A Comparative Analysis of Neural Language Models and Psychologically Plausible Models [29.50162863143141]
様々なニューラルネットワークモデルと心理的に妥当なモデルの符号化性能を比較した。意外なことに、心理学的に妥当なモデルが、さまざまな文脈でニューラルネットワークモデルより優れていることが判明した。
論文参考訳（メタデータ） (2024-04-30T08:48:07Z)
Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。我々のモデルでは、ほとんどの接続は学習後に決定論的になる。本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文参考訳（メタデータ） (2023-09-08T03:58:05Z)
Scaling laws for language encoding models in fMRI [47.498241053872924]
我々は、fMRIを用いて記録された脳の反応を予測するために、より大きなオープンソースモデルの方が優れているかどうかを検証した。同様の対数行動は、fMRIトレーニングセットのサイズを拡大する際に観察された。これらの結果は、脳内の言語処理の極めて効果的なモデルが得られることを示唆している。
論文参考訳（メタデータ） (2023-05-19T17:53:03Z)
Neural Language Models are not Born Equal to Fit Brain Data, but Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文参考訳（メタデータ） (2022-07-07T15:37:17Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文参考訳（メタデータ） (2022-03-19T06:28:30Z)
Connecting Neural Response measurements & Computational Models of language: a non-comprehensive guide [5.523143941738335]
言語モデリングとニューロイメージングにおける最近の進歩は、言語神経生物学の研究において潜在的な改善をもたらす可能性がある。この調査は、単純な言語モデルから派生したイベント関連ポテンシャルと複雑性尺度をリンクする初期の研究から、大規模コーパスで訓練されたニューラルネットワークモデルを用いた現代研究まで、一線を辿っている。
論文参考訳（メタデータ） (2022-03-10T11:24:54Z)
Model-based analysis of brain activity reveals the hierarchy of language in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-12T15:30:21Z)
Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文参考訳（メタデータ） (2021-09-27T15:04:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。