論文の概要: ViBE: Visual-to-M/EEG Brain Encoding via Spatio-Temporal VAE and Distribution-Aligned Projection
- arxiv url: http://arxiv.org/abs/2604.26218v1
- Date: Wed, 29 Apr 2026 01:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.218578
- Title: ViBE: Visual-to-M/EEG Brain Encoding via Spatio-Temporal VAE and Distribution-Aligned Projection
- Title(参考訳): ViBE: 時空間VAEと分布適応投影による視覚-M/EEG脳の符号化
- Authors: Ganxi Xu, Zhao-Rong Lai, Yuting Tang, Yonghao Song, Shuyan Zhou, Guoxu Zhou, Boyu Wang, Jian Zhu, Jinyi Long,
- Abstract要約: ViBEは脳磁図(MEG)と脳波(EEG)を視覚刺激から生成するための新しい符号化フレームワークである。
本稿では,M/EEG信号の時間的特性を捉える畳み込み変分オートエンコーダ(TS-CVAE)を提案する。
- 参考スコア(独自算出の注目度): 36.96202443284929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain encoding models not only serve to decipher how visual stimuli are transformed into neural responses, but also represent a critical step toward visual prostheses that restore vision for patients with severe vision disorders. Brain encoding involves two fundamental steps: achieving faithful reconstruction of neural responses and establishing cross-modal alignment between visual stimuli and neural responses. To this end, we propose ViBE, a novel brain encoding framework for generating magnetoencephalography (MEG) and electroencephalography (EEG) signals from visual stimuli. Specifically, we first design a spatio-temporal convolutional variational autoencoder (TSC-VAE) that captures the spatio-temporal characteristics of M/EEG signals for effective neural response reconstruction. To bridge the modality gap between visual features and neural representations, we employ Q-Former to map CLIP image embeddings to the TSC-VAE latent space, producing neural proxy embeddings. For comprehensive cross-modal alignment, we combine mean squared error (MSE) loss for point-wise feature matching with sliced Wasserstein distance (SWD) for probability distribution alignment between the neural proxy embeddings and TSC-VAE latent embeddings. We conduct extensive experiments on the THINGS-EEG2 and THINGS-MEG datasets, demonstrating the effectiveness of our approach in generating high-quality M/EEG signals from visual stimuli.
- Abstract(参考訳): 脳のエンコーディングモデルは、視覚刺激が神経反応にどのように変換されるかを理解するのに役立つだけでなく、重度視覚障害の患者に対する視覚を回復する視覚補綴への重要なステップでもある。
脳のエンコーディングには、神経反応の忠実な再構築、視覚刺激と神経反応の相互アライメントの確立という2つの基本的なステップが含まれる。
そこで我々は,脳磁図(MEG)と脳波(EEG)を視覚刺激から生成するための新しい脳符号化フレームワークであるViBEを提案する。
具体的には、M/EEG信号の時空間特性を効果的に再現する時空間畳み込み変分自動符号化器(TSC-VAE)を設計する。
視覚特徴とニューラル表現のモダリティギャップを埋めるため、我々はQ-Formerを用いてCLIP画像の埋め込みをTSC-VAE潜在空間にマッピングし、ニューラルプロキシの埋め込みを生成する。
包括的クロスモーダルアライメントでは,スライスされたワッサースタイン距離(SWD)とポイントワイド特徴マッチングのための平均二乗誤差(MSE)損失を組み合わせ,ニューラルネットワークの埋め込みとTSC-VAE潜伏埋め込みの確率分布アライメントを行う。
我々は、THINGS-EEG2およびTHINGS-MEGデータセットに関する広範な実験を行い、視覚刺激から高品質なM/EEG信号を生成する方法の有効性を実証した。
関連論文リスト
- NeuroCLIP: Brain-Inspired Prompt Tuning for EEG-to-Image Multimodal Contrastive Learning [13.254096454986318]
脳波から画像へのコントラスト学習に適したプロンプトチューニングフレームワークであるNeuroCLIPを提案する。
我々は初めて視覚的プロンプトトークンを脳波画像アライメントに導入し、グローバルなモダリティレベルのプロンプトとして機能する。
THINGS-EEG2データセットでは、NeuroCLIPはゼロショット画像検索において63.2%のTop-1精度を達成した。
論文 参考訳(メタデータ) (2025-11-12T12:13:24Z) - Image-to-Brain Signal Generation for Visual Prosthesis with CLIP Guided Multimodal Diffusion Models [6.761875482596085]
画像からM/EEGを生成する最初の画像-脳信号フレームワークを提案する。
提案フレームワークは,事前学習したCLIPビジュアルエンコーダと,有意な拡張U-Net拡散モデルからなる。
コンディショニングのための単純な結合に依存する従来の生成モデルとは異なり、我々のクロスアテンションモジュールは視覚的特徴と脳信号表現の間の複雑な相互作用を捉えている。
論文 参考訳(メタデータ) (2025-08-31T10:29:58Z) - SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [54.390403684665834]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換を確率的かつ生物学的に解釈可能な方法でシミュレートする生成フレームワークであるSynBrainを提案する。
実験結果から,SynBrainは被写体特異的視覚-fMRI符号化性能において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。