論文の概要: DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion
- arxiv url: http://arxiv.org/abs/2509.01177v1
- Date: Mon, 01 Sep 2025 06:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.56697
- Title: DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion
- Title(参考訳): DynaMind: 時間的ダイナミクスとマルチモーダルセマンティックスによる脳波からの動的視覚シーンの再構築
- Authors: Junxiang Liu, Junming Lin, Jiangtong Li, Jie Li,
- Abstract要約: 我々は、ニューラルダイナミクスとセマンティックな特徴を共同でモデリングすることで、映像を再構成する新しいフレームワークであるDynaMindを紹介する。
SEED-DVデータセットでは、DynaMindが新しい最先端(SOTA)を設定し、再構成されたビデオの精度を12.5と10.3%向上させた。
これは重要な進歩であり、神経力学と高忠実な視覚意味論のギャップを埋める。
- 参考スコア(独自算出の注目度): 10.936858717759156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstruction dynamic visual scenes from electroencephalography (EEG) signals remains a primary challenge in brain decoding, limited by the low spatial resolution of EEG, a temporal mismatch between neural recordings and video dynamics, and the insufficient use of semantic information within brain activity. Therefore, existing methods often inadequately resolve both the dynamic coherence and the complex semantic context of the perceived visual stimuli. To overcome these limitations, we introduce DynaMind, a novel framework that reconstructs video by jointly modeling neural dynamics and semantic features via three core modules: a Regional-aware Semantic Mapper (RSM), a Temporal-aware Dynamic Aligner (TDA), and a Dual-Guidance Video Reconstructor (DGVR). The RSM first utilizes a regional-aware encoder to extract multimodal semantic features from EEG signals across distinct brain regions, aggregating them into a unified diffusion prior. In the mean time, the TDA generates a dynamic latent sequence, or blueprint, to enforce temporal consistency between the feature representations and the original neural recordings. Together, guided by the semantic diffusion prior, the DGVR translates the temporal-aware blueprint into a high-fidelity video reconstruction. On the SEED-DV dataset, DynaMind sets a new state-of-the-art (SOTA), boosting reconstructed video accuracies (video- and frame-based) by 12.5 and 10.3 percentage points, respectively. It also achieves a leap in pixel-level quality, showing exceptional visual fidelity and temporal coherence with a 9.4% SSIM improvement and a 19.7% FVMD reduction. This marks a critical advancement, bridging the gap between neural dynamics and high-fidelity visual semantics.
- Abstract(参考訳): 脳波(EEG)信号からの動的視覚シーンの再構成は、脳波の低空間分解能、ニューラル記録とビデオダイナミクスの時間的ミスマッチ、脳活動における意味情報の不十分な使用により、脳復号における主要な課題である。
したがって、既存の手法はしばしば知覚された視覚刺激の動的コヒーレンスと複雑な意味的文脈の両方を不十分に解決する。
このような制限を克服するために、DynaMindは3つのコアモジュール(地域対応セマンティックマッパー(RSM)、時間対応動的アリグナー(TDA)、デュアルガイダンスビデオ再構成器(DGVR))を介して、ニューラルダイナミクスとセマンティック特徴を共同でモデリングすることで、映像を再構築する新しいフレームワークである。
RSMはまず、地域を意識したエンコーダを使用して、異なる脳領域にまたがる脳波信号からマルチモーダルな意味的特徴を抽出し、それらを統合された拡散に集約する。
平均すると、TDAは動的潜時シーケンス(ブループリント)を生成し、特徴表現と元のニューラル記録との時間的一貫性を強制する。
セマンティックな拡散によって導かれるDGVRは、時間認識のブループリントを高忠実度ビデオ再構成に変換する。
SEED-DVデータセットでは、DynaMindが新しい最先端(SOTA)を設定し、再構成されたビデオの精度(ビデオベースとフレームベース)をそれぞれ12.5と10.3%向上させる。
また、ピクセルレベルのクオリティも飛躍的に向上し、9.4%のSSIM改善と19.7%のFVMD削減を実現した。
これは重要な進歩であり、神経力学と高忠実な視覚意味論のギャップを埋める。
関連論文リスト
- Self-supervised Learning of Echocardiographic Video Representations via Online Cluster Distillation [21.738308923180767]
心エコービデオ表現学習のための自己教師型デュアルブランチフレームワークであるdisCOVRについて述べる。
DISCOVRは、時間的ダイナミクスをモデル化するクラスタリングベースのビデオエンコーダと、きめ細かい空間意味論を抽出するオンライン画像エンコーダを組み合わせる。
論文 参考訳(メタデータ) (2025-06-13T13:36:33Z) - Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction [142.66410908560582]
Video Virtual try-onは、被験者に特定の衣服を装着したビデオフィギュアをシームレスに着ることを目的としている。
ビデオ仮想試行のための動的ポーズ相互作用を探索するために拡散モデルを活用するために,動的ポーズ相互作用拡散モデル(DPIDM)を提案する。
DPIDMは、時間的整合性を高めるために、連続フレーム間の時間的規則化された注意損失に乗じる。
論文 参考訳(メタデータ) (2025-05-22T17:52:34Z) - Dynadiff: Single-stage Decoding of Images from Continuously Evolving fMRI [3.0450307343472405]
動的に進化するfMRI記録から画像を再構成するための新しい単一ステージ拡散モデルであるDynadiffを紹介する。
我々のモデルは、時間分解されたfMRI信号、特に高レベルのセマンティックイメージ再構成メトリクスの最先端モデルよりも優れています。
全体として、この研究は時間分解脳画像デコーディングの基礎となっている。
論文 参考訳(メタデータ) (2025-05-20T16:14:37Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Animate Your Thoughts: Decoupled Reconstruction of Dynamic Natural Vision from Slow Brain Activity [13.04953215936574]
脳活動から人間のダイナミックビジョンを再構築する2段階モデルMind-Animatorを提案する。
fMRIの段階では,fMRIから意味的,構造的,運動的特徴を分離する。
機能とビデオの段階では、これらの機能はインフレータブル拡散(Stable Diffusion)を使ってビデオに統合される。
論文 参考訳(メタデータ) (2024-05-06T08:56:41Z) - NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-02-02T17:34:25Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。