論文の概要: Bridging Brain and Semantics: A Hierarchical Framework for Semantically Enhanced fMRI-to-Video Reconstruction
- arxiv url: http://arxiv.org/abs/2605.14569v1
- Date: Thu, 14 May 2026 08:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.112258
- Title: Bridging Brain and Semantics: A Hierarchical Framework for Semantically Enhanced fMRI-to-Video Reconstruction
- Title(参考訳): ブリッジング脳とセマンティックス : fMRI-to-Video再構成のための階層的枠組み
- Authors: Yujie Wei, Chenglong Ma, Jianxiong Gao, Chenhui Wang, Shiwei Zhang, Biao Gong, Shuai Tan, Hangjie Yuan, Hongming Shan,
- Abstract要約: 我々は,fMRI信号からの映像再構成を意味的に強化する新しい階層的フレームワークであるCineNeuronを紹介する。
我々は、CineNeuronが様々なメトリクスで最先端の手法を超越していることを示す。
- 参考スコア(独自算出の注目度): 46.802578394085565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing dynamic visual experiences as videos from functional magnetic resonance imaging (fMRI) is pivotal for advancing the understanding of neural processes. However, current fMRI-to-video reconstruction methods are hindered by a semantic gap between noisy fMRI signals and the rich content of videos, stemming from a reliance on incomplete semantic embeddings that neither capture video-specific cues (e.g., actions) nor integrate prior knowledge. To this end, we draw inspiration from the dual-pathway processing mechanism in human brain and introduce CineNeuron, a novel hierarchical framework for semantically enhanced video reconstruction from fMRI signals with two synergistic stages. First, a bottom-up semantic enrichment stage maps fMRI signals to a rich embedding space that comprehensively captures textual semantics, image contents, action concepts, and object categories. Second, a top-down memory integration stage utilizes the proposed Mixture-of-Memories method to dynamically select relevant "memories" from previously seen data and fuse them with the fMRI embedding to refine the video reconstruction. Extensive experimental results on two fMRI-to-video benchmarks demonstrate that CineNeuron surpasses state-of-the-art methods across various metrics.
- Abstract(参考訳): 機能的磁気共鳴イメージング(fMRI)のビデオとしてダイナミックな視覚体験を再構成することは、神経過程の理解を深める上で重要である。
しかし、現在のfMRI-to-video再構成法は、ノイズの多いfMRI信号とビデオのリッチな内容とのセマンティックなギャップによって妨げられ、ビデオ固有の手がかり(例えばアクション)を捉えたり、事前知識を統合することもできない、不完全なセマンティック埋め込みに依存している。
この目的のために、人間の脳におけるデュアルパスウェイ処理機構からインスピレーションを得て、2つの相乗的な段階を持つfMRI信号からビデオ再構成を意味的に強化する新しい階層的フレームワークであるCineNeuronを導入する。
まず、ボトムアップのセマンティックエンリッチメントステージは、fMRI信号をリッチな埋め込み空間にマッピングし、テキストのセマンティクス、画像の内容、アクション概念、オブジェクトカテゴリを包括的にキャプチャする。
第2に、トップダウンメモリ統合ステージでは、提案したMixture-of-Memories法を用いて、予め見たデータから関連する「記憶」を動的に選択し、fMRI埋め込みで融合させ、映像再構成を洗練させる。
2つのfMRI-to-videoベンチマークによる大規模な実験結果から、CineNeuronはさまざまなメトリクスで最先端の手法を超越していることが示された。
関連論文リスト
- SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance [52.34513874272676]
本稿では,階層型セマンティック情報を用いた新しいfMRI-to-video再構成フレームワークであるSemVideoを紹介する。
SemVideoの中核であるSemMinerは、オリジナルのビデオ刺激から3段階のセマンティックキューを構築する階層的なガイダンスモジュールである。
意味的アライメントと時間的整合性の両方において,SemVideoは優れた性能を示し,fMRI-to- Video再構成における新たな最先端技術を確立した。
論文 参考訳(メタデータ) (2026-02-25T11:47:09Z) - Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文 参考訳(メタデータ) (2025-10-25T15:40:07Z) - MindShot: Multi-Shot Video Reconstruction from fMRI with LLM Decoding [7.066210443745838]
マルチショットfMRIビデオ再構成のための分割・復号化フレームワークを提案する。
1) ショット境界予測モジュールは、混合fMRI信号をショット固有のセグメントに明示的に分解する。
2) 各セグメントから堅牢なテキスト記述をデコードするLLMを用いた生成キャプションは,高レベルのセマンティクスを活用して時間的曖昧さを克服する。
論文 参考訳(メタデータ) (2025-08-04T14:47:17Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency [5.705640492618758]
我々はfMRIデータから顔画像を再構成する新しい枠組みを提案する。
提案手法は,(1)fMRIデータから明瞭な顔画像の再構成,(2)意味的特徴の一貫性の維持という2つの目標を達成する。
論文 参考訳(メタデータ) (2022-07-03T11:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。