論文の概要: Diffusion-Based Image-to-Brain Signal Generation with Cross-Attention Mechanisms for Visual Prostheses
- arxiv url: http://arxiv.org/abs/2509.00787v2
- Date: Sat, 06 Sep 2025 23:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 12:02:46.899584
- Title: Diffusion-Based Image-to-Brain Signal Generation with Cross-Attention Mechanisms for Visual Prostheses
- Title(参考訳): 視覚補綴用クロスアテンション機構を用いた拡散型画像-脳信号生成
- Authors: Ganxi Xu, Jinyi Long, Jia Zhang,
- Abstract要約: 本稿では,拡散確率モデルに基づく第1画像-脳信号(M/EEG)フレームワークを提案する。
このフレームワークは,入力画像からリッチなセマンティック表現を抽出する,事前訓練されたCLIPビジュアルエンコーダという,2つの重要なアーキテクチャコンポーネントで構成されている。
コンディショニングに単純な結合に依存する従来の生成モデルとは異なり、我々のクロスアテンションモジュールは視覚的特徴と脳信号表現の動的相互作用を可能にする。
- 参考スコア(独自算出の注目度): 6.761875482596085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual prostheses have shown great potential in restoring vision for blind individuals. However, while researchers have successfully utilized M/EEG signals to evoke visual perceptions during the brain decoding stage of visual prostheses, the complementary process-converting images to M/EEG signals in the brain encoding stage-remains largely unexplored. Thus, we present the first image-to-brain signal (M/EEG) framework based on denoising diffusion probabilistic models enhanced with cross-attention mechanisms. Our framework consists of two key architectural components: a pre-trained CLIP visual encoder that extracts rich semantic representations from input images, and a cross-attention enhanced U-Net diffusion model that learns to reconstruct biologically plausible brain signals through iterative denoising. Unlike conventional generative models that rely on simple concatenation for conditioning, our cross-attention modules enable dynamic interaction between visual features and brain signal representations, facilitating fine-grained alignment during the generation process. Furthermore, we evaluate our framework on two multimodal datasets (THINGS-EEG2 and THINGS-MEG) to demonstrate its effectiveness in generating biologically plausible brain signals. Additionally, we pioneer the visualization of M/EEG topographies across all subjects in both datasets, providing intuitive demonstrations of intra-subject and inter-subject variations in brain signals.
- Abstract(参考訳): 視覚補綴は視覚の回復に大きな可能性を秘めている。
しかし、研究者たちはM/EEGシグナルをうまく利用して、視覚義肢の脳復号段階における視覚知覚を誘発しているが、相補的なプロセス変換画像は脳内のM/EEG信号に変換される。
そこで本研究では,クロスアテンション機構により拡張された拡散確率モデルに基づく第1画像-脳信号(M/EEG)フレームワークを提案する。
本フレームワークは,入力画像からリッチな意味表現を抽出する事前学習型CLIPビジュアルエンコーダと,生物学的に検証可能な脳信号の反復的復調を学習するクロスアテンション拡張U-Net拡散モデルとから構成される。
コンディショニングに単純な結合に依存する従来の生成モデルとは異なり、我々のクロスアテンションモジュールは視覚的特徴と脳信号表現の動的相互作用を可能にし、生成過程の微妙なアライメントを容易にする。
さらに,2つのマルチモーダルデータセット (THINGS-EEG2 と THINGS-MEG) の枠組みを検証し,生物学的に可塑性な脳信号を生成する上での有効性を実証した。
さらに、両方のデータセットにおいて、全被験者にわたるM/EEGトポグラフィーの可視化を開拓し、脳信号の物体内および物体間変動の直感的なデモンストレーションを行った。
関連論文リスト
- SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [50.69448058071441]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換をシミュレートする生成フレームワークであるSynBrainを提案する。
そこで本研究では,SynBrainが主観的視覚-fMRI符号化性能において最先端の手法を超越していることを示す。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文 参考訳(メタデータ) (2023-09-30T09:15:22Z) - Seeing through the Brain: Image Reconstruction of Visual Perception from
Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。
我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文 参考訳(メタデータ) (2023-07-27T12:54:16Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。