論文の概要: Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity
- arxiv url: http://arxiv.org/abs/2405.03280v1
- Date: Mon, 6 May 2024 08:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:25:38.970728
- Title: Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity
- Title(参考訳): スロー脳活動による動的自然視の非結合的再構築
- Authors: Yizhuo Lu, Changde Du, Chong Wang, Xuanliu Zhu, Liuyun Jiang, Huiguang He,
- Abstract要約: 脳活動から人間のダイナミックビジョンを再構築することは、科学的に重要な課題である。
本稿では,3つの公開データセット上での最先端性能を実現する2段階モデルであるMind-Animatorを提案する。
我々は、再構成された映像力学は、生成モデルの幻覚ではなく、fMRIから導出されるものであることを裏付ける。
- 参考スコア(独自算出の注目度): 13.291585611137355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reconstructing human dynamic vision from brain activity is a challenging task with great scientific significance. The difficulty stems from two primary issues: (1) vision-processing mechanisms in the brain are highly intricate and not fully revealed, making it challenging to directly learn a mapping between fMRI and video; (2) the temporal resolution of fMRI is significantly lower than that of natural videos. To overcome these issues, this paper propose a two-stage model named Mind-Animator, which achieves state-of-the-art performance on three public datasets. Specifically, during the fMRI-to-feature stage, we decouple semantic, structural, and motion features from fMRI through fMRI-vision-language tri-modal contrastive learning and sparse causal attention. In the feature-to-video stage, these features are merged to videos by an inflated Stable Diffusion. We substantiate that the reconstructed video dynamics are indeed derived from fMRI, rather than hallucinations of the generative model, through permutation tests. Additionally, the visualization of voxel-wise and ROI-wise importance maps confirms the neurobiological interpretability of our model.
- Abstract(参考訳): 脳活動から人間のダイナミックビジョンを再構築することは、科学的に重要な課題である。
1) 脳の視覚処理機構は高度に複雑であり、完全には明らかになっていないため、fMRIとビデオのマッピングを直接学習することは困難である; 2)fMRIの時間分解能は自然ビデオよりも著しく低い。
本稿では,3つの公開データセット上での最先端性能を実現する2段階モデルであるMind-Animatorを提案する。
具体的には、fMRIからfMRIまでの段階において、意味、構造、運動の特徴をfMRIから、fMRIの3モーダル・コントラスト学習と疎因性注意(sparse causal attention)を通じて分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)によってビデオにマージされる。
我々は、再構成されたビデオ力学は、置換試験によって生成モデルの幻覚ではなく、fMRIから導出されるものであることを裏付ける。
さらに, Voxel-wise と ROI-wise important map の可視化により, 本モデルの神経生物学的解釈可能性を確認した。
関連論文リスト
- Neural Representations of Dynamic Visual Stimuli [36.04425924379253]
fMRIで測定した脳活動から視運動情報を光学的流れとして予測(あるいは復号化)できることを示す。
動き条件付き映像拡散モデルを用いて静的画像をリアルにアニメーションできることを示す。
この研究は、人間の脳がどのように視覚情報を動的に処理するかを解釈するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-04T17:59:49Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-02-02T17:34:25Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Cinematic Mindscapes: High-quality Video Reconstruction from Brain
Activity [0.0]
我々は,Mind-Videoを用いて,任意のフレームレートで高品質な映像を再構成可能であることを示す。
また,我々のモデルは,確立された生理的過程を反映し,生物学的に妥当かつ解釈可能であることも示している。
論文 参考訳(メタデータ) (2023-05-19T13:44:25Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。