論文の概要: SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance
- arxiv url: http://arxiv.org/abs/2602.21819v1
- Date: Wed, 25 Feb 2026 11:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.817581
- Title: SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance
- Title(参考訳): 階層的セマンティックガイダンスで脳活動から見るものを再構築するSemVideo
- Authors: Minghan Yang, Lan Yang, Ke Li, Honggang Zhang, Kaiyue Pang, Yizhe Song,
- Abstract要約: 本稿では,階層型セマンティック情報を用いた新しいfMRI-to-video再構成フレームワークであるSemVideoを紹介する。
SemVideoの中核であるSemMinerは、オリジナルのビデオ刺激から3段階のセマンティックキューを構築する階層的なガイダンスモジュールである。
意味的アライメントと時間的整合性の両方において,SemVideoは優れた性能を示し,fMRI-to- Video再構成における新たな最先端技術を確立した。
- 参考スコア(独自算出の注目度): 52.34513874272676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing dynamic visual experiences from brain activity provides a compelling avenue for exploring the neural mechanisms of human visual perception. While recent progress in fMRI-based image reconstruction has been notable, extending this success to video reconstruction remains a significant challenge. Current fMRI-to-video reconstruction approaches consistently encounter two major shortcomings: (i) inconsistent visual representations of salient objects across frames, leading to appearance mismatches; (ii) poor temporal coherence, resulting in motion misalignment or abrupt frame transitions. To address these limitations, we introduce SemVideo, a novel fMRI-to-video reconstruction framework guided by hierarchical semantic information. At the core of SemVideo is SemMiner, a hierarchical guidance module that constructs three levels of semantic cues from the original video stimulus: static anchor descriptions, motion-oriented narratives, and holistic summaries. Leveraging this semantic guidance, SemVideo comprises three key components: a Semantic Alignment Decoder that aligns fMRI signals with CLIP-style embeddings derived from SemMiner, a Motion Adaptation Decoder that reconstructs dynamic motion patterns using a novel tripartite attention fusion architecture, and a Conditional Video Render that leverages hierarchical semantic guidance for video reconstruction. Experiments conducted on the CC2017 and HCP datasets demonstrate that SemVideo achieves superior performance in both semantic alignment and temporal consistency, setting a new state-of-the-art in fMRI-to-video reconstruction.
- Abstract(参考訳): 脳の活動から動的視覚体験を再構築することは、人間の視覚知覚の神経メカニズムを探索するための魅力的な道を提供する。
近年fMRIによる画像再構成の進歩が注目されているが、この成功をビデオ再構成にまで広げることは大きな課題である。
最新のfMRI-to-video再構成アプローチは、一貫して2つの大きな欠点に遭遇する。
一 フレームにまたがる有能な物体の無矛盾な視覚表現で、外見上のミスマッチを生じさせるもの
(II)時間的コヒーレンスが悪いため、動きのずれや突然のフレーム遷移が発生する。
これらの制約に対処するために,階層的意味情報によってガイドされる新しいfMRI-to-video再構成フレームワークであるSemVideoを紹介した。
SemVideoのコアとなるのはSemMinerである。SemMinerは、ビデオ刺激から3段階のセマンティックキューを構築する階層的なガイダンスモジュールで、静的アンカー記述、動き指向の物語、総体的な要約である。
このセマンティック・アライメント・デコーダは、セマンティック・アライメント・デコーダ (Semantic Alignment Decoder) と、セマンティック・アライメント・デコーダ (SemMiner) から派生したCLIPスタイルの埋め込みとをアライメントする。
CC2017とHCPデータセットで実施された実験により、SemVideoはセマンティックアライメントと時間的一貫性の両方において優れたパフォーマンスを達成し、fMRIからビデオへの再構築において新たな最先端技術を確立した。
関連論文リスト
- STCDiT: Spatio-Temporally Consistent Diffusion Transformer for High-Quality Video Super-Resolution [60.06664986365803]
我々は,事前学習したビデオ拡散モデルに基づいて構築されたビデオ超解像フレームワークSTCDiTを提案する。
複雑なカメラの動きであっても、構造的に忠実で時間的に安定した動画を劣化した入力から復元することを目的としている。
論文 参考訳(メタデータ) (2025-11-24T05:37:23Z) - DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion [10.936858717759156]
我々は、ニューラルダイナミクスとセマンティックな特徴を共同でモデリングすることで、映像を再構成する新しいフレームワークであるDynaMindを紹介する。
SEED-DVデータセットでは、DynaMindが新しい最先端(SOTA)を設定し、再構成されたビデオの精度を12.5と10.3%向上させた。
これは重要な進歩であり、神経力学と高忠実な視覚意味論のギャップを埋める。
論文 参考訳(メタデータ) (2025-09-01T06:52:08Z) - MindShot: Multi-Shot Video Reconstruction from fMRI with LLM Decoding [7.066210443745838]
マルチショットfMRIビデオ再構成のための分割・復号化フレームワークを提案する。
1) ショット境界予測モジュールは、混合fMRI信号をショット固有のセグメントに明示的に分解する。
2) 各セグメントから堅牢なテキスト記述をデコードするLLMを用いた生成キャプションは,高レベルのセマンティクスを活用して時間的曖昧さを克服する。
論文 参考訳(メタデータ) (2025-08-04T14:47:17Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - DecoFuse: Decomposing and Fusing the "What", "Where", and "How" for Brain-Inspired fMRI-to-Video Decoding [82.91021399231184]
既存のfMRI-to-video法は、しばしば空間情報や動き情報を見下ろしながら意味的内容に焦点を当てる。
そこで我々は,fMRI信号から映像をデコードするための,脳にインスパイアされた新しいフレームワークであるDecoFuseを提案する。
まず、ビデオはセマンティック、空間、動きの3つのコンポーネントに分解し、次に各コンポーネントを別々にデコードしてから、ビデオを再構成する。
論文 参考訳(メタデータ) (2025-04-01T05:28:37Z) - Neurons: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction [13.110669865114533]
NEURONSは、学習を4つの相関したサブタスクに分離するコンセプトフレームワークである。
これは視覚野の機能的特殊化をシミュレートし、モデルが多様なビデオコンテンツをキャプチャすることを可能にする。
NEURONSは視覚野と強い機能相関を示し、脳とコンピュータのインターフェースと臨床応用の可能性を強調している。
論文 参考訳(メタデータ) (2025-03-14T08:12:28Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video
Retrieval [67.52910255064762]
時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
まず、時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
自己スーパービジョンから得られたセマンティック類似性知識の助けを借りて、ハッシュ層はセマンティック検索のための情報を取得することを学習する。
このようにして、モデルは自然に二進的なコードに絡み合ったセマンティクスを保存します。
論文 参考訳(メタデータ) (2023-10-12T03:21:12Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。