論文の概要: Predicting Brain Responses To Natural Movies With Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2507.19956v1
- Date: Sat, 26 Jul 2025 13:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.481805
- Title: Predicting Brain Responses To Natural Movies With Multimodal LLMs
- Title(参考訳): マルチモーダルLLMによる自然映画に対する脳反応の予測
- Authors: Cesar Kadir Torrico Villanueva, Jiaxin Cindy Tu, Mihir Tripathy, Connor Lane, Rishab Iyer, Paul S. Scotti,
- Abstract要約: We present MedARC's team solution to the Algonauts 2025 Challenge。
我々のパイプラインは、ビデオ(V-JEPA2)、音声(Whisper)、テキスト(Llama 3.2)、視覚テキスト(InternVL3)、視覚テキストオーディオ(Qwen2.5-Omni)の様々な最先端事前学習モデルのリッチなマルチモーダル表現を利用した。
最終提出書では、Pearsonの非配信映画のテスト分割に対する相関が平均0.2085に達し、当社のチームは競争で4位にランクインした。
- 参考スコア(独自算出の注目度): 0.881196878143281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MedARC's team solution to the Algonauts 2025 challenge. Our pipeline leveraged rich multimodal representations from various state-of-the-art pretrained models across video (V-JEPA2), speech (Whisper), text (Llama 3.2), vision-text (InternVL3), and vision-text-audio (Qwen2.5-Omni). These features extracted from the models were linearly projected to a latent space, temporally aligned to the fMRI time series, and finally mapped to cortical parcels through a lightweight encoder comprising a shared group head plus subject-specific residual heads. We trained hundreds of model variants across hyperparameter settings, validated them on held-out movies and assembled ensembles targeted to each parcel in each subject. Our final submission achieved a mean Pearson's correlation of 0.2085 on the test split of withheld out-of-distribution movies, placing our team in fourth place for the competition. We further discuss a last-minute optimization that would have raised us to second place. Our results highlight how combining features from models trained in different modalities, using a simple architecture consisting of shared-subject and single-subject components, and conducting comprehensive model selection and ensembling improves generalization of encoding models to novel movie stimuli. All code is available on GitHub.
- Abstract(参考訳): We present MedARC's team solution to the Algonauts 2025 Challenge。
我々のパイプラインは、ビデオ(V-JEPA2)、音声(Whisper)、テキスト(Llama 3.2)、視覚テキスト(InternVL3)、視覚テキストオーディオ(Qwen2.5-Omni)の様々な最先端事前学習モデルのリッチなマルチモーダル表現を利用した。
これらの特徴は, fMRI時系列に時間的に整列した潜在空間に線形に投影され, グループヘッドと被写体特異的残頭とからなる軽量エンコーダを介して, 皮質パーセルにマッピングされた。
私たちは、ハイパーパラメータ設定で何百ものモデル変異を訓練し、ホールドアウト映画で検証し、各主題のそれぞれのパーセルを対象としたアンサンブルを組み立てました。
最終提出書では、Pearsonの非配信映画のテスト分割に対する相関が平均0.2085に達し、私たちのチームは競争で4位にランクインした。
さらに、最後の数分の最適化について話し合い、2位になったでしょう。
本研究は,共有オブジェクトと単一オブジェクトで構成されたシンプルなアーキテクチャを用いて,異なるモダリティで訓練されたモデルの特徴を組み合わせることで,包括的モデル選択とアンサンブルを行うことにより,新しい映画刺激への符号化モデルの一般化が向上することを示す。
すべてのコードはGitHubで入手できる。
関連論文リスト
- Multimodal Recurrent Ensembles for Predicting Brain Responses to Naturalistic Movies (Algonauts 2025) [0.0]
本稿では,事前訓練されたビデオ,音声,言語埋め込みをfMRI時系列にマッピングする階層的マルチモーダル・リカレントアンサンブルを提案する。
トレーニングは複合的なMSE相関損失と、初期の知覚的堅牢性から後期関連領域に徐々に重点を移すカリキュラムに依存している。
このアプローチは、将来のマルチモーダル脳エンコーディングベンチマークのための単純で自然なベースラインを確立する。
論文 参考訳(メタデータ) (2025-07-23T19:48:27Z) - UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks [3.466119510238668]
現実世界のユーザー生成ビデオ、特にTikTokのようなプラットフォームでは、リッチでインターツウィンドなオーディオビジュアルコンテンツがしばしば表示される。
既存のビデオキャプションベンチマークとモデルは、シーンダイナミクス、話者意図、物語コンテキストを伝達する際のオーディオの重要な役割を見越して、主に視覚中心のままである。
これらの課題に対処するために,ショートフォームのユーザ生成ビデオの完全なキャプションに特化して設計された,新しいベンチマークおよびモデルフレームワークである-VideoCapを紹介した。
論文 参考訳(メタデータ) (2025-07-15T14:08:29Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
Video-Text to Speech (VTTS) は、会話者のテキストとビデオの両方に条件付けされた音声生成タスクである。
視覚,テキスト,音声の入力を共有部分空間に埋め込む,マルチモーダルデコーダのみの統合トランスフォーマモデルであるVisatronicを導入する。
LRS3でのみ訓練されたSOTA法よりも優れた4.5%のWERが得られることを示す。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。