論文の概要: TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction
- arxiv url: http://arxiv.org/abs/2507.22229v1
- Date: Tue, 29 Jul 2025 20:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.870963
- Title: TRIBE: TRImodal Brain Encoder for whole-brain fMRI response prediction
- Title(参考訳): TRIBE:全脳fMRI応答予測のためのトリモーダル脳エンコーダ
- Authors: Stéphane d'Ascoli, Jérémy Rapin, Yohann Benchetrit, Hubert Banville, Jean-Rémi King,
- Abstract要約: TRIBEは、複数のモードにわたる刺激に対する脳反応を予測するために訓練された最初のディープニューラルネットワークである。
我々のモデルはビデオに対する空間的および時間的fMRI応答を正確にモデル化することができる。
我々のアプローチは、人間の脳における表現の積分モデルを構築するための道を開く。
- 参考スコア(独自算出の注目度): 7.864304771129752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Historically, neuroscience has progressed by fragmenting into specialized domains, each focusing on isolated modalities, tasks, or brain regions. While fruitful, this approach hinders the development of a unified model of cognition. Here, we introduce TRIBE, the first deep neural network trained to predict brain responses to stimuli across multiple modalities, cortical areas and individuals. By combining the pretrained representations of text, audio and video foundational models and handling their time-evolving nature with a transformer, our model can precisely model the spatial and temporal fMRI responses to videos, achieving the first place in the Algonauts 2025 brain encoding competition with a significant margin over competitors. Ablations show that while unimodal models can reliably predict their corresponding cortical networks (e.g. visual or auditory networks), they are systematically outperformed by our multimodal model in high-level associative cortices. Currently applied to perception and comprehension, our approach paves the way towards building an integrative model of representations in the human brain. Our code is available at https://github.com/facebookresearch/algonauts-2025.
- Abstract(参考訳): 歴史的に、神経科学は特定の領域に断片化することで進歩し、それぞれが孤立したモダリティ、タスク、または脳領域に焦点を当てている。
実りあるが、このアプローチは認知の統一モデルの開発を妨げる。
ここでは、複数のモード、皮質領域、個人にわたる刺激に対する脳反応を予測するために訓練された最初のディープニューラルネットワークTRIBEを紹介する。
テキスト,オーディオ,ビデオの基礎モデルの事前訓練された表現と,その時間進化的な性質を変換器と組み合わせることで,ビデオに対する空間的および時間的fMRI応答を正確にモデル化し,競争相手との大きな差を伴って,Algonauts 2025の脳エンコーディングコンペティションにおいて第1位を達成できる。
アブレーションは、単調モデルが対応する皮質ネットワーク(例えば視覚的・聴覚的ネットワーク)を確実に予測できる一方で、高次連想性皮質において、我々のマルチモーダルモデルにより体系的に優れた性能を発揮することを示している。
現在、認識と理解に応用されており、我々のアプローチは人間の脳における表現の積分モデルを構築するための道を開いた。
私たちのコードはhttps://github.com/facebookresearch/algonauts-2025で公開されています。
関連論文リスト
- A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli [0.0]
Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。
本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
論文 参考訳(メタデータ) (2025-07-24T05:29:37Z) - Voxel-Level Brain States Prediction Using Swin Transformer [65.9194533414066]
本稿では, 4D Shifted Window (Swin) Transformer をエンコーダとして用い, 時間的情報を効率よく学習し, 畳み込みデコーダを用いて入力fMRIデータと同じ空間的, 時間的解像度で脳状態の予測を可能にするアーキテクチャを提案する。
前回の23.04s fMRI時系列に基づいて7.2sの安静時脳活動を予測すると,高い精度が得られた。
これは、人間の脳の時間的構造が高解像度でSwin Transformerモデルによって学習できることを示す有望な証拠である。
論文 参考訳(メタデータ) (2025-06-13T04:14:38Z) - SIM: Surface-based fMRI Analysis for Inter-Subject Multimodal Decoding from Movie-Watching Experiments [9.786770726122436]
脳のデコーディングとエンコーディングのための現在のAIフレームワークは、通常、同じデータセット内でモデルをトレーニングし、テストする。
モデル一般化の鍵となる障害は、物体間皮質組織の多様性の度合いである。
本稿では,大脳皮質機能力学の一般化可能なモデルを構築する表面視覚変換器を用いてこの問題に対処する。
論文 参考訳(メタデータ) (2025-01-27T20:05:17Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方では、ニューロン間の'バインディング'が、ネットワークの深い層においてより抽象的な概念を表現するために表現を圧縮する、競争的な学習の形式につながることが知られている。
完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。
このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、定量化、推論など、幅広いタスクにわたるパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - Unsupervised representation learning with Hebbian synaptic and structural plasticity in brain-like feedforward neural networks [0.0]
教師なし表現学習が可能な脳様ニューラルネットワークモデルを導入,評価する。
このモデルは、一般的な機械学習ベンチマークのさまざまなセットでテストされた。
論文 参考訳(メタデータ) (2024-06-07T08:32:30Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - BrainBERT: Self-supervised representation learning for intracranial
recordings [18.52962864519609]
我々は、神経科学に現代的な表現学習アプローチをもたらす頭蓋内記録のための再利用可能な変換器BrainBERTを開発した。
NLPや音声認識と同様に、この変換器は複雑な概念を高い精度で、はるかに少ないデータで分類することができる。
将来的には、表現学習を使用することで、はるかに多くの概念がニューラル録音から切り離され、言語モデルがアンロックされた言語のように脳をアンロックする可能性がある。
論文 参考訳(メタデータ) (2023-02-28T07:40:37Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。