論文の概要: MindShot: Multi-Shot Video Reconstruction from fMRI with LLM Decoding
- arxiv url: http://arxiv.org/abs/2508.02480v1
- Date: Mon, 04 Aug 2025 14:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.38549
- Title: MindShot: Multi-Shot Video Reconstruction from fMRI with LLM Decoding
- Title(参考訳): MindShot: LLMデコーディングによるfMRIからのマルチショットビデオ再構成
- Authors: Wenwen Zeng, Yonghuang Wu, Yifan Chen, Xuan Xie, Chengqian Zhao, Feiyu Yin, Guoqing Wu, Jinhua Yu,
- Abstract要約: マルチショットfMRIビデオ再構成のための分割・復号化フレームワークを提案する。
1) ショット境界予測モジュールは、混合fMRI信号をショット固有のセグメントに明示的に分解する。
2) 各セグメントから堅牢なテキスト記述をデコードするLLMを用いた生成キャプションは,高レベルのセマンティクスを活用して時間的曖昧さを克服する。
- 参考スコア(独自算出の注目度): 7.066210443745838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dynamic videos from fMRI is important for understanding visual cognition and enabling vivid brain-computer interfaces. However, current methods are critically limited to single-shot clips, failing to address the multi-shot nature of real-world experiences. Multi-shot reconstruction faces fundamental challenges: fMRI signal mixing across shots, the temporal resolution mismatch between fMRI and video obscuring rapid scene changes, and the lack of dedicated multi-shot fMRI-video datasets. To overcome these limitations, we propose a novel divide-and-decode framework for multi-shot fMRI video reconstruction. Our core innovations are: (1) A shot boundary predictor module explicitly decomposing mixed fMRI signals into shot-specific segments. (2) Generative keyframe captioning using LLMs, which decodes robust textual descriptions from each segment, overcoming temporal blur by leveraging high-level semantics. (3) Novel large-scale data synthesis (20k samples) from existing datasets. Experimental results demonstrate our framework outperforms state-of-the-art methods in multi-shot reconstruction fidelity. Ablation studies confirm the critical role of fMRI decomposition and semantic captioning, with decomposition significantly improving decoded caption CLIP similarity by 71.8%. This work establishes a new paradigm for multi-shot fMRI reconstruction, enabling accurate recovery of complex visual narratives through explicit decomposition and semantic prompting.
- Abstract(参考訳): fMRIからのダイナミックビデオの再構成は、視覚認知の理解と、鮮明な脳とコンピュータのインターフェイスの実現に重要である。
しかし、現在の手法はシングルショットのクリップに限られており、実世界の体験のマルチショットの性質に対処することができない。
マルチショット再構成は、ショット間のfMRI信号の混合、fMRIとビデオの急激なシーン変化の時間分解ミスマッチ、専用のfMRI画像データセットの欠如など、基本的な課題に直面している。
これらの制限を克服するために,マルチショットfMRIビデオ再構成のための分割・復号化フレームワークを提案する。
1) ショット境界予測モジュールは、混合fMRI信号をショット固有のセグメントに明示的に分解する。
2) 各セグメントからロバストなテキスト記述をデコードするLLMを用いたキーフレームキャプションの生成は,ハイレベルなセマンティクスを活用して時間的曖昧さを克服する。
(3)既存のデータセットからの新しい大規模データ合成(20万サンプル)。
実験により,本フレームワークは複数ショット再構成忠実度において最先端の手法より優れていることを示す。
アブレーション研究は、fMRI分解とセマンティックキャプションの重要な役割を証明し、分解はデコードされたキャプションCLIPの類似性を71.8%改善した。
この研究はマルチショットfMRI再構成のための新しいパラダイムを確立し、明示的な分解とセマンティック・プロンプトを通じて複雑な視覚的物語の正確な復元を可能にする。
関連論文リスト
- NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction [29.030311713701295]
我々は,fMRIから高忠実度・スムーズな映像をデコードする革新的なフレームワークであるNeuroClipsを提案する。
NeuroClipsは、ビデオの再構成にセマンティックサクタを使用し、セマンティックの精度と一貫性を誘導し、低レベルの知覚の詳細を捉えるために知覚再構成器を使用する。
NeuroClipsは8FPSで最大6秒のスムーズな高忠実度ビデオ再構成を実現する。
論文 参考訳(メタデータ) (2024-10-25T10:28:26Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - Fill the K-Space and Refine the Image: Prompting for Dynamic and
Multi-Contrast MRI Reconstruction [31.404228406642194]
ダイナミックまたはマルチコントラスト磁気共鳴画像(MRI)再構成の鍵は、フレーム間またはコントラスト間情報を探索することにある。
本稿では,これらの制約に対処する2段階MRI再構成パイプラインを提案する。
提案手法は,従来の高速MRI再建法より有意に優れていた。
論文 参考訳(メタデータ) (2023-09-25T02:51:00Z) - Natural scene reconstruction from fMRI signals using generative latent
diffusion [1.90365714903665]
我々はBrain-Diffuserと呼ばれる2段階のシーン再構築フレームワークを提示する。
第1段階では、VDVAE(Very Deep Vari Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。
第2段階では、予測されたマルチモーダル(テキストおよび視覚)特徴に基づいて、遅延拡散モデルのイメージ・ツー・イメージ・フレームワークを使用する。
論文 参考訳(メタデータ) (2023-03-09T15:24:26Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Holistic Multi-Slice Framework for Dynamic Simultaneous Multi-Slice MRI
Reconstruction [8.02450593595801]
動的SMS再構築のための新しいDLベースのフレームワークを提案する。
本研究の主な貢献は,1)データ変換ステップと,2)データ不足問題に対処するMR物理誘導転送学習戦略を効果的に活用するネットワーク設計の組み合わせである。
論文 参考訳(メタデータ) (2023-01-03T21:09:51Z) - Model-Guided Multi-Contrast Deep Unfolding Network for MRI
Super-resolution Reconstruction [68.80715727288514]
MRI観察行列を用いて,反復型MGDUNアルゴリズムを新しいモデル誘導深部展開ネットワークに展開する方法を示す。
本稿では,医療画像SR再構成のためのモデルガイド型解釈可能なDeep Unfolding Network(MGDUN)を提案する。
論文 参考訳(メタデータ) (2022-09-15T03:58:30Z) - Transformer-empowered Multi-scale Contextual Matching and Aggregation
for Multi-contrast MRI Super-resolution [55.52779466954026]
マルチコントラスト・スーパーレゾリューション (SR) 再構成により, SR画像の高画質化が期待できる。
既存の手法では、これらの特徴をマッチングし、融合させる効果的なメカニズムが欠如している。
そこで本稿では,トランスフォーマーを利用したマルチスケールコンテキストマッチングとアグリゲーション技術を開発することで,これらの問題を解決する新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-26T01:42:59Z) - Multi-modal Aggregation Network for Fast MR Imaging [85.25000133194762]
我々は,完全サンプル化された補助モダリティから補完表現を発見できる,MANetという新しいマルチモーダル・アグリゲーション・ネットワークを提案する。
我々のMANetでは,完全サンプリングされた補助的およびアンアンサンプされた目標モダリティの表現は,特定のネットワークを介して独立に学習される。
私たちのMANetは、$k$-spaceドメインの周波数信号を同時に回復できるハイブリッドドメイン学習フレームワークに従います。
論文 参考訳(メタデータ) (2021-10-15T13:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。