論文の概要: A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli
- arxiv url: http://arxiv.org/abs/2507.18104v2
- Date: Fri, 25 Jul 2025 00:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.232409
- Title: A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli
- Title(参考訳): 自然刺激に対する脳反応予測のためのマルチモーダルSeq2Seq変換器
- Authors: Qianyi He, Yuan Chang Leong,
- Abstract要約: Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。
本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Algonauts 2025 Challenge called on the community to develop encoding models that predict whole-brain fMRI responses to naturalistic multimodal movies. In this submission, we propose a sequence-to-sequence Transformer that autoregressively predicts fMRI activity from visual, auditory, and language inputs. Stimulus features were extracted using pretrained models including VideoMAE, HuBERT, Qwen, and BridgeTower. The decoder integrates information from prior brain states and current stimuli via dual cross-attention mechanisms that attend to both perceptual information extracted from the stimulus as well as narrative information provided by high-level summaries of the content. One core innovation of our approach is the use of sequences of multimodal context to predict sequences of brain activity, enabling the model to capture long-range temporal structure in both stimuli and neural responses. Another is the combination of a shared encoder with partial subject-specific decoder, which leverages common representational structure across subjects while accounting for individual variability. Our model achieves strong performance on both in-distribution and out-of-distribution data, demonstrating the effectiveness of temporally-aware, multimodal sequence modeling for brain activity prediction. The code is available at https://github.com/Angelneer926/Algonauts_challenge.
- Abstract(参考訳): Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。
本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
VideoMAE, HuBERT, Qwen, BridgeTower などの事前訓練モデルを用いて刺激特性を抽出した。
デコーダは、刺激から抽出された知覚情報と、その内容の上位要約によって提供される物語情報の両方に対応する2つの交差注意機構を介して、前脳の状態と現在の刺激からの情報を統合する。
このアプローチのコアとなる革新のひとつは、マルチモーダルコンテキストのシーケンスを使用して脳活動のシーケンスを予測することで、モデルが刺激と神経反応の両方において、長距離の時間構造をキャプチャすることを可能にすることである。
もうひとつは、共有エンコーダと部分主題固有のデコーダの組み合わせである。
本モデルは,脳活動予測のための時間的マルチモーダルシーケンスモデリングの有効性を実証し,分布内データと分布外データの両方で高い性能を達成する。
コードはhttps://github.com/Angelneer926/Algonauts_challengeで公開されている。
関連論文リスト
- SIM: Surface-based fMRI Analysis for Inter-Subject Multimodal Decoding from Movie-Watching Experiments [9.786770726122436]
脳のデコーディングとエンコーディングのための現在のAIフレームワークは、通常、同じデータセット内でモデルをトレーニングし、テストする。
モデル一般化の鍵となる障害は、物体間皮質組織の多様性の度合いである。
本稿では,大脳皮質機能力学の一般化可能なモデルを構築する表面視覚変換器を用いてこの問題に対処する。
論文 参考訳(メタデータ) (2025-01-27T20:05:17Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - Dynamics Based Neural Encoding with Inter-Intra Region Connectivity [2.3825930751052358]
本稿では,ビデオ刺激を用いた視覚野記録について,映像理解モデルの比較に焦点をあてた最初の大規模研究を提案する。
映像理解モデルが視覚野の反応を予測する方法について重要な知見を提供する。
本稿では,最高の映像理解モデル上に構築されたニューラルエンコーディング方式を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:29:49Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - A shared neural encoding model for the prediction of subject-specific
fMRI response [17.020869686284165]
本稿では,個人レベルでの差分を考慮した共有畳み込みニューラルエンコーディング手法を提案する。
本手法は,視覚刺激や聴覚刺激によって誘発される主観的応答の予測を改善するために,多目的データを活用する。
論文 参考訳(メタデータ) (2020-06-29T04:10:14Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。