論文の概要: Multimodal Recurrent Ensembles for Predicting Brain Responses to Naturalistic Movies (Algonauts 2025)
- arxiv url: http://arxiv.org/abs/2507.17897v2
- Date: Fri, 25 Jul 2025 15:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.223984
- Title: Multimodal Recurrent Ensembles for Predicting Brain Responses to Naturalistic Movies (Algonauts 2025)
- Title(参考訳): 自然主義映画に対する脳反応予測のためのマルチモーダルリカレントアンサンブル(宇宙飛行士2025)
- Authors: Semih Eren, Deniz Kucukahmetler, Nico Scherf,
- Abstract要約: 本稿では,事前訓練されたビデオ,音声,言語埋め込みをfMRI時系列にマッピングする階層的マルチモーダル・リカレントアンサンブルを提案する。
トレーニングは複合的なMSE相関損失と、初期の知覚的堅牢性から後期関連領域に徐々に重点を移すカリキュラムに依存している。
このアプローチは、将来のマルチモーダル脳エンコーディングベンチマークのための単純で自然なベースラインを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately predicting distributed cortical responses to naturalistic stimuli requires models that integrate visual, auditory and semantic information over time. We present a hierarchical multimodal recurrent ensemble that maps pretrained video, audio, and language embeddings to fMRI time series recorded while four subjects watched almost 80 hours of movies provided by the Algonauts 2025 challenge. Modality-specific bidirectional RNNs encode temporal dynamics; their hidden states are fused and passed to a second recurrent layer, and lightweight subject-specific heads output responses for 1000 cortical parcels. Training relies on a composite MSE-correlation loss and a curriculum that gradually shifts emphasis from early sensory to late association regions. Averaging 100 model variants further boosts robustness. The resulting system ranked third on the competition leaderboard, achieving an overall Pearson r = 0.2094 and the highest single-parcel peak score (mean r = 0.63) among all participants, with particularly strong gains for the most challenging subject (Subject 5). The approach establishes a simple, extensible baseline for future multimodal brain-encoding benchmarks.
- Abstract(参考訳): 自然な刺激に対する分散皮質反応の正確な予測には、視覚的、聴覚的、意味的な情報を時間とともに統合するモデルが必要である。
4人の被験者がAlgonauts 2025チャレンジで提供された約80時間の映画を視聴している間に、事前訓練されたビデオ、オーディオ、言語埋め込みをfMRI時系列にマッピングする階層的マルチモーダル・リカレントアンサンブルを提示する。
モード特異的な双方向RNNは、時間的ダイナミクスを符号化し、それらの隠れ状態は融合され、第2の繰り返し層に渡され、1000個の皮質パーセルに対して軽量な主観的頭部出力応答が与えられる。
トレーニングは複合的なMSE相関損失と、早期感覚から後期関連領域に徐々に重点を移すカリキュラムに依存している。
平均100種類のモデルがさらに堅牢性を高める。
結果は、Pearson r = 0.2094 と最高スコア (平均 r = 0.63 ) の合計で3位となり、最も難しい科目(第5部)では特に高い利得を得た(第5部)。
このアプローチは、将来のマルチモーダル脳エンコーディングベンチマークのための単純で拡張可能なベースラインを確立する。
関連論文リスト
- TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction [7.864304771129752]
TRIBEは、複数のモードにわたる刺激に対する脳反応を予測するために訓練された最初のディープニューラルネットワークである。
我々のモデルはビデオに対する空間的および時間的fMRI応答を正確にモデル化することができる。
我々のアプローチは、人間の脳における表現の積分モデルを構築するための道を開く。
論文 参考訳(メタデータ) (2025-07-29T20:52:31Z) - Predicting Brain Responses To Natural Movies With Multimodal LLMs [0.881196878143281]
We present MedARC's team solution to the Algonauts 2025 Challenge。
我々のパイプラインは、ビデオ(V-JEPA2)、音声(Whisper)、テキスト(Llama 3.2)、視覚テキスト(InternVL3)、視覚テキストオーディオ(Qwen2.5-Omni)の様々な最先端事前学習モデルのリッチなマルチモーダル表現を利用した。
最終提出書では、Pearsonの非配信映画のテスト分割に対する相関が平均0.2085に達し、当社のチームは競争で4位にランクインした。
論文 参考訳(メタデータ) (2025-07-26T13:57:08Z) - A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli [0.0]
Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。
本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
論文 参考訳(メタデータ) (2025-07-24T05:29:37Z) - MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation [24.48561340129571]
RingMoEは147億のパラメータを持つ統一RS基盤モデルであり、9つの衛星から4億個のマルチモーダルRS画像に事前訓練されている。
緊急対応、土地管理、海洋科学、都市計画など、様々な分野に展開および試行されている。
論文 参考訳(メタデータ) (2025-04-04T04:47:54Z) - The MuSe 2024 Multimodal Sentiment Analysis Challenge: Social Perception and Humor Recognition [64.5207572897806]
マルチモーダル・センティメント・アナリティクス・チャレンジ (MuSe) 2024は、現代の2つのマルチモーダル・インフルエンスと感情分析の問題に対処する。
Social Perception Sub-Challenge (MuSe-Perception)では、参加者は16種類の個人の社会的属性を予測する。
クロスカルカルカルチャー・ヒューモー検出サブチャレンジ(MuSe-Humor)データセットは、Passau Spontaneous Football Coach Humorデータセット上に拡張される。
論文 参考訳(メタデータ) (2024-06-11T22:26:20Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Hybrid Mutimodal Fusion for Dimensional Emotion Recognition [20.512310175499664]
我々は,Multimodal Sentiment Challenge (MuSe) 2021 の MuSe-Stress sub-challenge と MuSe-Physio sub-challenge のソリューションを幅広く紹介する。
1)音声・視覚的特徴と生体信号的特徴は感情状態認識に使用される。
MuSe-Physio sub-challengeでは、まず複数のモーダルから音声・視覚的特徴と生体信号的特徴を抽出する。
論文 参考訳(メタデータ) (2021-10-16T06:57:18Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。