論文の概要: Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding
- arxiv url: http://arxiv.org/abs/2507.19052v1
- Date: Fri, 25 Jul 2025 08:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.877105
- Title: Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding
- Title(参考訳): 脳内マルチモーダル核融合の探索 : 自然なエンコーディングにおける視覚ストリームの優位性
- Authors: Hamid Abdollahi, Amir Hossein Mansouri Majoumerd, Amir Hossein Bagheri Baboukani, Amir Abolfazl Suratgar, Mohammad Bagher Menhaj,
- Abstract要約: 我々は,最先端視覚 (X-CLIP) と聴覚 (Whisper) 特徴抽出器を用いた脳符号化モデルを開発した。
分布内(ID)データと分布外(OOD)データの両方を厳格に評価する。
- 参考スコア(独自算出の注目度): 1.2233362977312945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting brain activity in response to naturalistic, multimodal stimuli is a key challenge in computational neuroscience. While encoding models are becoming more powerful, their ability to generalize to truly novel contexts remains a critical, often untested, question. In this work, we developed brain encoding models using state-of-the-art visual (X-CLIP) and auditory (Whisper) feature extractors and rigorously evaluated them on both in-distribution (ID) and diverse out-of-distribution (OOD) data. Our results reveal a fundamental trade-off between model complexity and generalization: a higher-capacity attention-based model excelled on ID data, but a simpler linear model was more robust, outperforming a competitive baseline by 18\% on the OOD set. Intriguingly, we found that linguistic features did not improve predictive accuracy, suggesting that for familiar languages, neural encoding may be dominated by the continuous visual and auditory streams over redundant textual information. Spatially, our approach showed marked performance gains in the auditory cortex, underscoring the benefit of high-fidelity speech representations. Collectively, our findings demonstrate that rigorous OOD testing is essential for building robust neuro-AI models and provides nuanced insights into how model architecture, stimulus characteristics, and sensory hierarchies shape the neural encoding of our rich, multimodal world.
- Abstract(参考訳): 自然主義的マルチモーダル刺激に反応して脳活動を予測することは、計算神経科学において重要な課題である。
モデルエンコーディングはますます強力になりつつあるが、真に新しいコンテキストに一般化する能力は、批判的であり、しばしばテストされていない問題である。
本研究では,最先端視覚 (X-CLIP) と聴覚 (Whisper) 特徴抽出器 (Whisper) を用いて脳のエンコーディングモデルを構築し,それらを分布内 (ID) と分布外 (OOD) の両方のデータに基づいて厳密に評価した。
モデル複雑性と一般化の基本的なトレードオフは,IDデータに優れた高容量アテンションベースモデルであるが,より単純な線形モデルはより堅牢であり,OOD集合上での競合ベースラインを18%上回った。
興味深いことに、言語的特徴は予測精度を向上しなかったため、慣れ親しんだ言語では、ニューラルエンコーディングは冗長なテキスト情報よりも連続的な視覚的および聴覚的ストリームに支配される可能性がある。
空間的には, 高忠実度音声表現の利点が強調され, 聴覚野のパフォーマンス向上が顕著であった。
総合的に見れば、堅牢なニューロAIモデル構築には厳密なOODテストが不可欠であることを示すとともに、モデルアーキテクチャ、刺激特性、感覚階層が、我々のリッチでマルチモーダルな世界のニューラルエンコーディングをいかに形作るかについて、微妙な洞察を提供する。
関連論文リスト
- A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli [0.0]
Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。
本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
論文 参考訳(メタデータ) (2025-07-24T05:29:37Z) - Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex [5.283925904540581]
BraInCoRLは、いくつかの例からボクセルワイドな神経応答を予測するために、コンテキスト内学習を使用している。
我々は、BraInCoRLが、既存のボクセルワイドエンコーダ設計を低データ方式で一貫して上回っていることを示す。
BraInCoRLは、意味的に関連する刺激に参加することによって、高次視覚野における神経信号のより良い解釈性を促進する。
論文 参考訳(メタデータ) (2025-05-21T17:59:41Z) - Mind the Gap: Aligning the Brain with Language Models Requires a Nonlinear and Multimodal Approach [4.1606197342190105]
自己教師型言語と音声モデルは、音声に対する脳反応を効果的に予測する。
従来の予測モデルは、ユニモーダル特徴からの線形写像に依存している。
本稿では,事前学習モデルの音声特徴と言語特徴を組み合わせた非線形・マルチモーダル予測モデルを提案する。
論文 参考訳(メタデータ) (2025-02-18T11:33:28Z) - NeuralOOD: Improving Out-of-Distribution Generalization Performance with Brain-machine Fusion Learning Framework [13.25912138698749]
CVモデルからの視覚的知識と人間の脳からの認知的知識を融合させる新しい脳機械融合学習フレームワークを提案する。
我々は、視覚特徴から機能的磁気共鳴イメージング(fMRI)を予測するために、事前訓練された視覚ニューラルエンコーディングモデルを用いている。
我々のモデルは、ImageNet-1kバリデーションデータセットのDINOv2とベースラインモデル、および6つのキュレートされたOODデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-08-27T10:54:37Z) - Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals [5.283718601431859]
エレクトロコルチコグラフィー(ECoG)を用いた脳-コンピュータインタフェースは,医療応用における高性能音声復号化を約束している。
離散コーデックス誘導マスクモデリングにより,領域レベルのトークンに基づくコンテキスト埋め込みを抽出するDu-INモデルを開発した。
本モデルでは,61ワードの分類タスクにおいて,すべてのベースラインを越えながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-19T06:00:36Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。