論文の概要: Stacked Regression using Off-the-shelf, Stimulus-tuned and Fine-tuned Neural Networks for Predicting fMRI Brain Responses to Movies (Algonauts 2025 Report)
- arxiv url: http://arxiv.org/abs/2510.06235v1
- Date: Thu, 02 Oct 2025 15:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.042612
- Title: Stacked Regression using Off-the-shelf, Stimulus-tuned and Fine-tuned Neural Networks for Predicting fMRI Brain Responses to Movies (Algonauts 2025 Report)
- Title(参考訳): 映画に対するfMRI脳反応予測のためのオフザシェルフ, 刺激調整, 微調整ニューラルネットワークを用いた重回帰(宇宙飛行士2025年報)
- Authors: Robert Scholz, Kunal Bagga, Christine Ahrends, Carlo Alberto Barbano,
- Abstract要約: 我々はアルゴノート2025チャレンジに応募する。
目標は、映画刺激に対するfMRIの脳反応を予測することである。
提案手法は,大規模言語モデル,ビデオエンコーダ,オーディオモデル,視覚言語モデルからのマルチモーダル表現を統合する。
- 参考スコア(独自算出の注目度): 1.7266027274320124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present our submission to the Algonauts 2025 Challenge, where the goal is to predict fMRI brain responses to movie stimuli. Our approach integrates multimodal representations from large language models, video encoders, audio models, and vision-language models, combining both off-the-shelf and fine-tuned variants. To improve performance, we enhanced textual inputs with detailed transcripts and summaries, and we explored stimulus-tuning and fine-tuning strategies for language and vision models. Predictions from individual models were combined using stacked regression, yielding solid results. Our submission, under the team name Seinfeld, ranked 10th. We make all code and resources publicly available, contributing to ongoing efforts in developing multimodal encoding models for brain activity.
- Abstract(参考訳): 我々は、映画刺激に対するfMRI脳反応を予測することを目的として、Algonauts 2025 Challengeに応募する。
提案手法では,大規模言語モデル,ビデオエンコーダ,オーディオモデル,ヴィジュアル言語モデルからのマルチモーダル表現を統合する。
性能向上のために,詳細なテキストと要約によるテキスト入力を強化し,言語および視覚モデルに対する刺激調整および微調整戦略を検討した。
個々のモデルからの予測は、積み重ね回帰を用いて組み合わせられ、安定した結果が得られた。
チーム名はSeinfeldで、10位にランクインした。
私たちはすべてのコードとリソースを公開し、脳活動のためのマルチモーダルエンコーディングモデルの開発に継続的な取り組みに貢献しています。
関連論文リスト
- Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction [7.864304771129752]
TRIBEは、複数のモードにわたる刺激に対する脳反応を予測するために訓練された最初のディープニューラルネットワークである。
我々のモデルはビデオに対する空間的および時間的fMRI応答を正確にモデル化することができる。
我々のアプローチは、人間の脳における表現の積分モデルを構築するための道を開く。
論文 参考訳(メタデータ) (2025-07-29T20:52:31Z) - Predicting Brain Responses To Natural Movies With Multimodal LLMs [0.881196878143281]
We present MedARC's team solution to the Algonauts 2025 Challenge。
我々のパイプラインは、ビデオ(V-JEPA2)、音声(Whisper)、テキスト(Llama 3.2)、視覚テキスト(InternVL3)、視覚テキストオーディオ(Qwen2.5-Omni)の様々な最先端事前学習モデルのリッチなマルチモーダル表現を利用した。
最終提出書では、Pearsonの非配信映画のテスト分割に対する相関が平均0.2085に達し、当社のチームは競争で4位にランクインした。
論文 参考訳(メタデータ) (2025-07-26T13:57:08Z) - A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli [0.0]
Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。
本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
論文 参考訳(メタデータ) (2025-07-24T05:29:37Z) - MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-07-25T10:08:37Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。