論文の概要: Neurons: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction
- arxiv url: http://arxiv.org/abs/2503.11167v1
- Date: Fri, 14 Mar 2025 08:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:02.342902
- Title: Neurons: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction
- Title(参考訳): ニューロン:fMRI-to-Video再構成におけるヒト視覚皮質の忠実度と解釈性の改善をエミュレートする
- Authors: Haonan Wang, Qixiang Zhang, Lehan Wang, Xuanqi Huang, Xiaomeng Li,
- Abstract要約: NEURONSは、学習を4つの相関したサブタスクに分離するコンセプトフレームワークである。
これは視覚野の機能的特殊化をシミュレートし、モデルが多様なビデオコンテンツをキャプチャすることを可能にする。
NEURONSは視覚野と強い機能相関を示し、脳とコンピュータのインターフェースと臨床応用の可能性を強調している。
- 参考スコア(独自算出の注目度): 13.110669865114533
- License:
- Abstract: Decoding visual stimuli from neural activity is essential for understanding the human brain. While fMRI methods have successfully reconstructed static images, fMRI-to-video reconstruction faces challenges due to the need for capturing spatiotemporal dynamics like motion and scene transitions. Recent approaches have improved semantic and perceptual alignment but struggle to integrate coarse fMRI data with detailed visual features. Inspired by the hierarchical organization of the visual system, we propose NEURONS, a novel framework that decouples learning into four correlated sub-tasks: key object segmentation, concept recognition, scene description, and blurry video reconstruction. This approach simulates the visual cortex's functional specialization, allowing the model to capture diverse video content. In the inference stage, NEURONS generates robust conditioning signals for a pre-trained text-to-video diffusion model to reconstruct the videos. Extensive experiments demonstrate that NEURONS outperforms state-of-the-art baselines, achieving solid improvements in video consistency (26.6%) and semantic-level accuracy (19.1%). Notably, NEURONS shows a strong functional correlation with the visual cortex, highlighting its potential for brain-computer interfaces and clinical applications. Code and model weights will be available at: https://github.com/xmed-lab/NEURONS.
- Abstract(参考訳): 神経活動から視覚刺激をデコードすることは、人間の脳を理解するのに不可欠である。
fMRI法は静止画像の再構成に成功しているが、動きやシーン遷移といった時空間的ダイナミクスを捉える必要があるため、fMRI-to-video再構成は課題に直面している。
近年のアプローチでは、意味的・知覚的アライメントが改善されているが、粗いfMRIデータと詳細な視覚的特徴の統合に苦慮している。
視覚システムの階層構造に着想を得て,学習を4つの関連したサブタスク(キーオブジェクトセグメンテーション,概念認識,シーン記述,ぼやけた映像再構成)に分解する新しいフレームワークであるNEURONSを提案する。
このアプローチは視覚野の機能的特殊化をシミュレートし、モデルが多様なビデオコンテンツをキャプチャすることを可能にする。
推論段階では、NEURONSは、事前訓練されたテキスト-ビデオ拡散モデルに対してロバストな条件信号を生成し、映像を再構成する。
大規模な実験では、NEURONSは最先端のベースラインより優れ、ビデオの一貫性(26.6%)と意味レベルの精度(19.1%)がしっかりと改善されている。
特に、NEURONSは視覚野と強い機能相関を示し、脳とコンピュータのインターフェースと臨床応用の可能性を強調している。
コードとモデルの重み付けは、https://github.com/xmed-lab/NEURONS.comで提供される。
関連論文リスト
- NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction [29.030311713701295]
我々は,fMRIから高忠実度・スムーズな映像をデコードする革新的なフレームワークであるNeuroClipsを提案する。
NeuroClipsは、ビデオの再構成にセマンティックサクタを使用し、セマンティックの精度と一貫性を誘導し、低レベルの知覚の詳細を捉えるために知覚再構成器を使用する。
NeuroClipsは8FPSで最大6秒のスムーズな高忠実度ビデオ再構成を実現する。
論文 参考訳(メタデータ) (2024-10-25T10:28:26Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-02-02T17:34:25Z) - UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。
我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。
UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文 参考訳(メタデータ) (2023-08-14T19:49:29Z) - Cinematic Mindscapes: High-quality Video Reconstruction from Brain
Activity [0.0]
我々は,Mind-Videoを用いて,任意のフレームレートで高品質な映像を再構成可能であることを示す。
また,我々のモデルは,確立された生理的過程を反映し,生物学的に妥当かつ解釈可能であることも示している。
論文 参考訳(メタデータ) (2023-05-19T13:44:25Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。