論文の概要: SIM: Surface-based fMRI Analysis for Inter-Subject Multimodal Decoding from Movie-Watching Experiments
- arxiv url: http://arxiv.org/abs/2501.16471v1
- Date: Mon, 27 Jan 2025 20:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:56.778398
- Title: SIM: Surface-based fMRI Analysis for Inter-Subject Multimodal Decoding from Movie-Watching Experiments
- Title(参考訳): SIM:映画視聴実験によるオブジェクト間マルチモーダルデコードのための表面fMRI解析
- Authors: Simon Dahan, Gabriel Bénédict, Logan Z. J. Williams, Yourong Guo, Daniel Rueckert, Robert Leech, Emma C. Robinson,
- Abstract要約: 脳のデコーディングとエンコーディングのための現在のAIフレームワークは、通常、同じデータセット内でモデルをトレーニングし、テストする。
モデル一般化の鍵となる障害は、物体間皮質組織の多様性の度合いである。
本稿では,大脳皮質機能力学の一般化可能なモデルを構築する表面視覚変換器を用いてこの問題に対処する。
- 参考スコア(独自算出の注目度): 9.786770726122436
- License:
- Abstract: Current AI frameworks for brain decoding and encoding, typically train and test models within the same datasets. This limits their utility for brain computer interfaces (BCI) or neurofeedback, for which it would be useful to pool experiences across individuals to better simulate stimuli not sampled during training. A key obstacle to model generalisation is the degree of variability of inter-subject cortical organisation, which makes it difficult to align or compare cortical signals across participants. In this paper we address this through the use of surface vision transformers, which build a generalisable model of cortical functional dynamics, through encoding the topography of cortical networks and their interactions as a moving image across a surface. This is then combined with tri-modal self-supervised contrastive (CLIP) alignment of audio, video, and fMRI modalities to enable the retrieval of visual and auditory stimuli from patterns of cortical activity (and vice-versa). We validate our approach on 7T task-fMRI data from 174 healthy participants engaged in the movie-watching experiment from the Human Connectome Project (HCP). Results show that it is possible to detect which movie clips an individual is watching purely from their brain activity, even for individuals and movies not seen during training. Further analysis of attention maps reveals that our model captures individual patterns of brain activity that reflect semantic and visual systems. This opens the door to future personalised simulations of brain function. Code & pre-trained models will be made available at https://github.com/metrics-lab/sim, processed data for training will be available upon request at https://gin.g-node.org/Sdahan30/sim.
- Abstract(参考訳): 脳のデコーディングとエンコーディングのための現在のAIフレームワークは、通常、同じデータセット内でモデルをトレーニングし、テストする。
これにより、脳コンピューターインタフェース(BCI)や神経フィードバックの実用性が制限され、トレーニング中にサンプリングされない刺激をより良くシミュレートするために、個人間で経験をプールするのに役立ちます。
モデル一般化の鍵となる障害は、物体間皮質組織の多様性の度合いであり、参加者間で皮質信号の調整や比較が困難になる。
本稿では、表面視変換器を用いて、皮質ネットワークのトポグラフィーとそれらの相互作用を、表面を横断する移動画像として符号化することで、皮質機能力学の一般化可能なモデルを構築する。
次に、音声、ビデオ、fMRIモダリティのトリモーダル自己監督コントラスト(CLIP)アライメントと組み合わせて、皮質活動(および副交叉)のパターンから視覚的および聴覚的刺激の検索を可能にする。
我々は,Human Connectome Project (HCP) の映画視聴実験に携わる174名の健常者を対象に,7Tタスク-fMRIデータに対するアプローチを検証する。
その結果、トレーニング中に見えない個人や映画であっても、個人が脳活動から純粋に見ている映画クリップを検出することが可能であることが判明した。
注意図のさらなる分析により、我々のモデルは意味的・視覚的システムを反映した脳活動の個々のパターンを捉えていることが明らかとなった。
これは将来のパーソナライズされた脳機能のシミュレーションへの扉を開く。
コードと事前トレーニングされたモデルはhttps://github.com/metrics-lab/simで利用可能になる。
関連論文リスト
- DSAM: A Deep Learning Framework for Analyzing Temporal and Spatial Dynamics in Brain Networks [4.041732967881764]
ほとんどのrs-fMRI研究は、関心のある脳領域にまたがる単一の静的機能接続行列を計算している。
これらのアプローチは、脳のダイナミクスを単純化し、目の前のゴールを適切に考慮していないリスクがある。
本稿では,時系列から直接ゴール固有の機能的接続行列を学習する,解釈可能な新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-19T23:35:06Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.40827290083577]
機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文 参考訳(メタデータ) (2024-03-11T01:18:49Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits [22.558134249701794]
音声・視覚音声分離のための新しい皮質・視床・皮質神経回路(CTCNet)を提案する。
CTCNetは階層的な聴覚と視覚の表現をボトムアップで学習する。
3つの音声分離ベンチマークデータセットの実験では、CTCNetはパラメータがかなり少ない既存のAVSSメソッドよりも著しく優れていた。
論文 参考訳(メタデータ) (2022-12-21T03:28:30Z) - Semantic Brain Decoding: from fMRI to conceptually similar image
reconstruction of visual stimuli [0.29005223064604074]
本稿では,意味的・文脈的類似性にも依存する脳復号法を提案する。
我々は、自然視のfMRIデータセットを使用し、人間の視覚におけるボトムアップとトップダウンの両方のプロセスの存在にインスパイアされたディープラーニングデコードパイプラインを作成します。
視覚刺激の再現は, それまでの文献において, 本来の内容とセマンティックレベルで非常によく一致し, 芸術の状態を超越している。
論文 参考訳(メタデータ) (2022-12-13T16:54:08Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。