論文の概要: VIBE: Video-Input Brain Encoder for fMRI Response Modeling
- arxiv url: http://arxiv.org/abs/2507.17958v1
- Date: Wed, 23 Jul 2025 22:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.634933
- Title: VIBE: Video-Input Brain Encoder for fMRI Response Modeling
- Title(参考訳): VIBE:fMRI応答モデリングのためのビデオ入力脳エンコーダ
- Authors: Daniel Carlstrom Schad, Shrey Dixit, Janis Keck, Viktor Studenyak, Aleksandr Shpilevoi, Andrej Bicanski,
- Abstract要約: マルチモーダルビデオ,音声,テキスト機能を融合した2段階変換器を用いてfMRI活動を予測する。
我々は、CNeuroModデータセットから65時間の映画データをトレーニングし、20の種にまとめました。
同じアーキテクチャの初期のイテレーションではそれぞれ0.3198と0.2096を獲得し、フェーズ1で優勝し、オールゴナズ2025チャレンジで総合2位となった。
- 参考スコア(独自算出の注目度): 37.69303106863453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VIBE, a two-stage Transformer that fuses multi-modal video, audio, and text features to predict fMRI activity. Representations from open-source models (Qwen2.5, BEATs, Whisper, SlowFast, V-JEPA) are merged by a modality-fusion transformer and temporally decoded by a prediction transformer with rotary embeddings. Trained on 65 hours of movie data from the CNeuroMod dataset and ensembled across 20 seeds, VIBE attains mean parcel-wise Pearson correlations of 32.25 on in-distribution Friends S07 and 21.25 on six out-of-distribution films. An earlier iteration of the same architecture obtained 0.3198 and 0.2096, respectively, winning Phase-1 and placing second overall in the Algonauts 2025 Challenge.
- Abstract(参考訳): 我々は、マルチモーダルビデオ、オーディオ、テキスト機能を融合してfMRI活動を予測する2段階変換器VIBEを提案する。
オープンソースモデル(Qwen2.5,BEATs,Whisper,SlowFast,V-JEPA)の表現をモダリティ融合変換器にマージし、回転埋め込みを備えた予測変換器で時間的に復号する。
CNeuroModデータセットから65時間分の映画データを採取し、20個のシードでアンサンブルし、VIBEは6本のアウト・オブ・ディストリビューション映画で、配信中の友人S07と21.25の平均パーセルワイド・ピアソン相関を32.25と達成した。
同じアーキテクチャの初期のイテレーションではそれぞれ0.3198と0.2096を獲得し、フェーズ1で優勝し、オールゴナズ2025チャレンジで総合2位となった。
関連論文リスト
- Predicting Brain Responses To Natural Movies With Multimodal LLMs [0.881196878143281]
We present MedARC's team solution to the Algonauts 2025 Challenge。
我々のパイプラインは、ビデオ(V-JEPA2)、音声(Whisper)、テキスト(Llama 3.2)、視覚テキスト(InternVL3)、視覚テキストオーディオ(Qwen2.5-Omni)の様々な最先端事前学習モデルのリッチなマルチモーダル表現を利用した。
最終提出書では、Pearsonの非配信映画のテスト分割に対する相関が平均0.2085に達し、当社のチームは競争で4位にランクインした。
論文 参考訳(メタデータ) (2025-07-26T13:57:08Z) - FullTransNet: Full Transformer with Local-Global Attention for Video Summarization [16.134118247239527]
本稿では,ビデオ要約のためのFullTransNetというトランスフォーマー型アーキテクチャを提案する。
ビデオ要約の代替アーキテクチャとしてエンコーダ・デコーダ構造を持つフルトランスフォーマーを使用する。
本モデルでは, Fスコアが54.4%, 63.9%であり, 比較的低い計算量とメモリ要件を維持している。
論文 参考訳(メタデータ) (2025-01-01T16:07:27Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning [30.51005522218133]
音声・視覚ゼロショット学習のための新しいSTFT(Spking Tucker Fusion Transformer)を提案する。
STFTは、異なる時間ステップからの時間的および意味的な情報を活用して、堅牢な表現を生成する。
本稿では,最大と平均のプール操作を組み合わせたグローバルローカルプール(GLP)を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:01:26Z) - Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - Robust Human Motion Forecasting using Transformer-based Model [14.088942546585068]
本研究では,リアルタイムな3次元人体動作予測を短時間・長期で処理するTransformerに基づく新しいモデルを提案する。
本モデルでは, 騒音の多い環境下での3次元動作の復元と予測において, 人間の動きが著しく抑制されている状況において, その頑健さを実証する。
我々のモデルは,400msの入力プレフィックスを持つHumanre3.6Mデータセットにおいて,短期予測におけるST-Transformerの平均2乗誤差を8.89%,長期予測で2.57%削減する。
論文 参考訳(メタデータ) (2023-02-16T13:06:39Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - 3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical
Transformer for Medical Image Segmentation [5.635173603669784]
本研究では,高機能なボリュームセグメンテーションのために,ConvNetモジュールを用いた階層型トランスフォーマを適応させる3D UX-Netという軽量なボリュームトリビュータを提案する。
具体的には、Swin Transformerにインスパイアされた大規模なグローバルな受容フィールドを実現するために、大きなカーネルサイズ(例:7.7times7$から始まる)でボリュームの奥行きの畳み込みを再検討する。
論文 参考訳(メタデータ) (2022-09-29T19:54:13Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。