論文の概要: A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli
- arxiv url: http://arxiv.org/abs/2507.18104v1
- Date: Thu, 24 Jul 2025 05:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.015142
- Title: A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli
- Title(参考訳): 自然刺激に対する脳反応予測のためのマルチモーダルSeq2Seq変換器
- Authors: Qianyi He, Yuan Chang Leong,
- Abstract要約: Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。
本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Algonauts 2025 Challenge called on the community to develop encoding models that predict whole-brain fMRI responses to naturalistic multimodal movies. In this submission, we propose a sequence-to-sequence Transformer that autoregressively predicts fMRI activity from visual, auditory, and language inputs. Stimulus features were extracted using pretrained models including VideoMAE, HuBERT, Qwen, and BridgeTower. The decoder integrates information from prior brain states, current stimuli, and episode-level summaries via dual cross-attention mechanisms that attend to both perceptual information extracted from the stimulus as well as narrative information provided by high-level summaries of narrative content. One core innovation of our approach is the use of sequences of multimodal context to predict sequences of brain activity, enabling the model to capture long-range temporal structure in both stimuli and neural responses. Another is the combination of a shared encoder with partial subject-specific decoder, which leverages common structure across subjects while accounting for individual variability. Our model achieves strong performance on both in-distribution and out-of-distribution data, demonstrating the effectiveness of temporally-aware, multimodal sequence modeling for brain activity prediction. The code is available at https://github.com/Angelneer926/Algonauts_challenge.
- Abstract(参考訳): Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。
本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
VideoMAE, HuBERT, Qwen, BridgeTower などの事前訓練モデルを用いて刺激特性を抽出した。
デコーダは、刺激から抽出された知覚情報と、物語内容の上位要約によって提供される物語情報の両方に対応する2つのクロスアテンション機構を介して、前脳状態、現在の刺激、エピソードレベルの要約からの情報を統合する。
このアプローチのコアとなる革新のひとつは、マルチモーダルコンテキストのシーケンスを使用して脳活動のシーケンスを予測することで、モデルが刺激と神経反応の両方において、長距離の時間構造をキャプチャすることを可能にすることである。
もうひとつは、共有エンコーダと部分主題固有のデコーダの組み合わせである。
本モデルは,脳活動予測のための時間的マルチモーダルシーケンスモデリングの有効性を実証し,分布内データと分布外データの両方で高い性能を達成する。
コードはhttps://github.com/Angelneer926/Algonauts_challengeで公開されている。
関連論文リスト
- TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction [7.864304771129752]
TRIBEは、複数のモードにわたる刺激に対する脳反応を予測するために訓練された最初のディープニューラルネットワークである。
我々のモデルはビデオに対する空間的および時間的fMRI応答を正確にモデル化することができる。
我々のアプローチは、人間の脳における表現の積分モデルを構築するための道を開く。
論文 参考訳(メタデータ) (2025-07-29T20:52:31Z) - Probing Multimodal Fusion in the Brain: The Dominance of Audiovisual Streams in Naturalistic Encoding [1.2233362977312945]
我々は,最先端視覚 (X-CLIP) と聴覚 (Whisper) 特徴抽出器を用いた脳符号化モデルを開発した。
分布内(ID)データと分布外(OOD)データの両方を厳格に評価する。
論文 参考訳(メタデータ) (2025-07-25T08:12:26Z) - SIM: Surface-based fMRI Analysis for Inter-Subject Multimodal Decoding from Movie-Watching Experiments [9.786770726122436]
脳のデコーディングとエンコーディングのための現在のAIフレームワークは、通常、同じデータセット内でモデルをトレーニングし、テストする。
モデル一般化の鍵となる障害は、物体間皮質組織の多様性の度合いである。
本稿では,大脳皮質機能力学の一般化可能なモデルを構築する表面視覚変換器を用いてこの問題に対処する。
論文 参考訳(メタデータ) (2025-01-27T20:05:17Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - Dynamics Based Neural Encoding with Inter-Intra Region Connectivity [2.3825930751052358]
本稿では,ビデオ刺激を用いた視覚野記録について,映像理解モデルの比較に焦点をあてた最初の大規模研究を提案する。
映像理解モデルが視覚野の反応を予測する方法について重要な知見を提供する。
本稿では,最高の映像理解モデル上に構築されたニューラルエンコーディング方式を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:29:49Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - A shared neural encoding model for the prediction of subject-specific
fMRI response [17.020869686284165]
本稿では,個人レベルでの差分を考慮した共有畳み込みニューラルエンコーディング手法を提案する。
本手法は,視覚刺激や聴覚刺激によって誘発される主観的応答の予測を改善するために,多目的データを活用する。
論文 参考訳(メタデータ) (2020-06-29T04:10:14Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。