論文の概要: Multi-modal brain encoding models for multi-modal stimuli
- arxiv url: http://arxiv.org/abs/2505.20027v1
- Date: Mon, 26 May 2025 14:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.499943
- Title: Multi-modal brain encoding models for multi-modal stimuli
- Title(参考訳): マルチモーダル刺激のためのマルチモーダル脳符号化モデル
- Authors: Subba Reddy Oota, Khushbu Pahwa, Mounika Marreddy, Maneesh Singh, Manish Gupta, Bapi S. Raju,
- Abstract要約: マルチモーダルトランスフォーマーモデルは、違和感のない表現であっても、視覚的な脳活動を予測することができる。
この研究は、脳のどの領域が単一モーダルとマルチモーダルの情報を処理するかを特定するのに役立ちます。
- 参考スコア(独自算出の注目度): 16.324962030831273
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite participants engaging in unimodal stimuli, such as watching images or silent videos, recent work has demonstrated that multi-modal Transformer models can predict visual brain activity impressively well, even with incongruent modality representations. This raises the question of how accurately these multi-modal models can predict brain activity when participants are engaged in multi-modal stimuli. As these models grow increasingly popular, their use in studying neural activity provides insights into how our brains respond to such multi-modal naturalistic stimuli, i.e., where it separates and integrates information across modalities through a hierarchy of early sensory regions to higher cognition. We investigate this question by using multiple unimodal and two types of multi-modal models-cross-modal and jointly pretrained-to determine which type of model is more relevant to fMRI brain activity when participants are engaged in watching movies. We observe that both types of multi-modal models show improved alignment in several language and visual regions. This study also helps in identifying which brain regions process unimodal versus multi-modal information. We further investigate the contribution of each modality to multi-modal alignment by carefully removing unimodal features one by one from multi-modal representations, and find that there is additional information beyond the unimodal embeddings that is processed in the visual and language regions. Based on this investigation, we find that while for cross-modal models, their brain alignment is partially attributed to the video modality; for jointly pretrained models, it is partially attributed to both the video and audio modalities. This serves as a strong motivation for the neuroscience community to investigate the interpretability of these models for deepening our understanding of multi-modal information processing in brain.
- Abstract(参考訳): 画像やサイレントビデオなどの一様刺激の参加者にも拘わらず、近年の研究では、マルチモーダルトランスフォーマーモデルが、相反するモダリティ表現であっても、視覚的脳活動を著しく予測できることが示されている。
このことは、これらのマルチモーダルモデルが、参加者がマルチモーダル刺激を受けているときの脳活動を予測することができるかどうかという問題を提起する。
これらのモデルが人気を増すにつれて、神経活動の研究における彼らの利用は、脳がこのようなマルチモーダルな自然主義的な刺激にどのように反応するかについての洞察を与える。
本課題は,映画視聴の参加者において,fMRI脳活動にどのモデルが関係しているかを,複数の単一モードモデルと2種類のマルチモーダルモデル-クロスモーダルモデルとジョイントプレトレーニングモデルを用いて検討する。
両タイプのマルチモーダルモデルでは,複数の言語と視覚領域のアライメントが改善されている。
この研究は、ユニモーダルとマルチモーダルの情報を処理する脳領域の特定にも役立ちます。
さらに,多モーダル表現から一対一の特徴を慎重に除去することにより,各モーダルの多モーダルアライメントへの寄与について検討し,視覚領域や言語領域で処理される単モーダル埋め込み以外の追加情報があることを見出した。
本研究により, クロスモーダルモデルでは脳のアライメントがビデオモダリティに部分的に関係していることが判明した。
これは、脳内のマルチモーダル情報処理の理解を深めるために、これらのモデルの解釈可能性を調べる神経科学コミュニティにとって強力な動機となっている。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。
最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。
ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文 参考訳(メタデータ) (2024-10-08T01:41:56Z) - Modality-Aware and Shift Mixer for Multi-modal Brain Tumor Segmentation [12.094890186803958]
マルチモーダル画像のモダリティ内依存性とモダリティ間依存性を統合した新しいModality Aware and Shift Mixerを提案する。
具体的には,低レベルのモザイク対関係をモデル化するためのニューロイメージング研究に基づいてModality-Awareモジュールを導入し,モザイクパターンを具体化したModality-Shiftモジュールを開発し,高レベルのモザイク間の複雑な関係を自己注意を通して探索する。
論文 参考訳(メタデータ) (2024-03-04T14:21:51Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Vision-Language Integration in Multimodal Video Transformers (Partially)
Aligns with the Brain [5.496000639803771]
本稿では,脳内のマルチモーダル情報処理の神経科学的証拠を活用することで,事前訓練したマルチモーダルビデオトランスフォーマーモデルを提案する。
視覚が言語処理中にマスキング予測性能を高めることの証拠が得られ、モデル内のクロスモーダル表現が個々のモダリティに有効であることを示す。
本研究では、視覚言語推論を必要とするタスクを用いて微調整を行うことにより、事前訓練された関節表現の脳アライメントを改善することができることを示す。
論文 参考訳(メタデータ) (2023-11-13T21:32:37Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - M2Lens: Visualizing and Explaining Multimodal Models for Sentiment
Analysis [28.958168542624062]
感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。
M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。
論文 参考訳(メタデータ) (2021-07-17T15:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。