論文の概要: Diffusion-Based Image-to-Brain Signal Generation with Cross-Attention Mechanisms for Visual Prostheses
- arxiv url: http://arxiv.org/abs/2509.00787v1
- Date: Sun, 31 Aug 2025 10:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.395369
- Title: Diffusion-Based Image-to-Brain Signal Generation with Cross-Attention Mechanisms for Visual Prostheses
- Title(参考訳): 視覚補綴用クロスアテンション機構を用いた拡散型画像-脳信号生成
- Authors: Ganxi Xu, Jinyi Long, Jia Zhang,
- Abstract要約: 本稿では,拡散確率モデル (DDPM) に基づく新しい画像と脳の枠組みを提案する。
本フレームワークは,入力画像からリッチな意味表現を抽出する事前学習型CLIPビジュアルエンコーダと,生物学的に可算な脳信号の再構成を学習するクロスアテンション拡張U-Net拡散モデルとから構成される。
我々は,2つのマルチモーダルデータセット上での枠組みを評価し,生物学的に妥当な脳信号の生成の有効性を実証した。
- 参考スコア(独自算出の注目度): 6.761875482596085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual prostheses have shown great potential in restoring vision for blind individuals. On the one hand, researchers have been continuously improving the brain decoding framework of visual prostheses by leveraging the powerful image generation capabilities of diffusion models. On the other hand, the brain encoding stage of visual prostheses struggles to generate brain signals with sufficient biological similarity. Although existing works have recognized this problem, the quality of predicted stimuli still remains a critical issue, as existing approaches typically lack supervised signals from real brain responses to validate the biological plausibility of predicted stimuli. To address this issue, we propose a novel image-to-brain framework based on denoising diffusion probabilistic models (DDPMs) enhanced with cross-attention mechanisms. Our framework consists of two key architectural components: a pre-trained CLIP visual encoder that extracts rich semantic representations from input images, and a cross-attention enhanced U-Net diffusion model that learns to reconstruct biologically plausible brain signals through iterative denoising. Unlike conventional generative models that rely on simple concatenation for conditioning, our cross-attention modules enable dynamic interaction between visual features and brain signal representations, facilitating fine-grained alignment during the generation process. We evaluate our framework on two multimodal datasets (THINGS-EEG2 and THINGS-MEG) to demonstrate its effectiveness in generating biologically plausible brain signals. Moreover, we visualize the training and test M/EEG topographies for all subjects on both datasets to intuitively demonstrate the intra-subject variations and inter-subject variations in M/EEG signals.
- Abstract(参考訳): 視覚補綴は視覚の回復に大きな可能性を秘めている。
一方、研究者は拡散モデルの強力な画像生成能力を活用することで、視覚義肢の脳デコードフレームワークを継続的に改善してきた。
一方、視覚補綴の段階をコードする脳は、十分な生物学的類似性を持つ脳信号を生成するのに苦労している。
既存の研究はこの問題を認識しているが、予測刺激の品質は依然として重要な問題であり、既存のアプローチでは予測刺激の生物学的妥当性を検証するための実際の脳反応からの教師付き信号が欠如している。
そこで本研究では,拡散確率モデル (DDPM) に基づく画像から脳への新たなフレームワークを提案する。
本フレームワークは,入力画像からリッチな意味表現を抽出する事前学習型CLIPビジュアルエンコーダと,生物学的に検証可能な脳信号の反復的復調を学習するクロスアテンション拡張U-Net拡散モデルとから構成される。
コンディショニングに単純な結合に依存する従来の生成モデルとは異なり、我々のクロスアテンションモジュールは視覚的特徴と脳信号表現の動的相互作用を可能にし、生成過程の微妙なアライメントを容易にする。
我々は,2つのマルチモーダルデータセット (THINGS-EEG2 と THINGS-MEG) 上での枠組みを評価し,生物学的に可塑性な脳信号を生成する上での有効性を実証した。
さらに,M/EEG信号の物体内変動と物体間変動を直感的に示すために,各被験者のM/EEGトポグラフィーを可視化する。
関連論文リスト
- SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [50.69448058071441]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換をシミュレートする生成フレームワークであるSynBrainを提案する。
そこで本研究では,SynBrainが主観的視覚-fMRI符号化性能において最先端の手法を超越していることを示す。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文 参考訳(メタデータ) (2023-09-30T09:15:22Z) - Seeing through the Brain: Image Reconstruction of Visual Perception from
Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。
我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文 参考訳(メタデータ) (2023-07-27T12:54:16Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。