論文の概要: SpikeVAEDiff: Neural Spike-based Natural Visual Scene Reconstruction via VD-VAE and Versatile Diffusion
- arxiv url: http://arxiv.org/abs/2601.09213v1
- Date: Wed, 14 Jan 2026 06:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.297077
- Title: SpikeVAEDiff: Neural Spike-based Natural Visual Scene Reconstruction via VD-VAE and Versatile Diffusion
- Title(参考訳): SpikeVAediff:VD-VAEとVersatile Diffusionによるニューラルスパイクによる自然視シーン再構成
- Authors: Jialu Li, Taiyan Zhou,
- Abstract要約: 神経活動から自然の視覚シーンを再構築することは、神経科学とコンピュータビジョンにおける重要な課題である。
We present SpikeVAediff, a novel two-stage framework that a Very Deep Variational Autoencoder (VDVAE) and the Versatile Diffusion model。
第1段階では、VDVAEはニューラルスパイク信号を潜在表現にマッピングすることで、低分解能の予備再構成を生成する。
第2段階では、回帰モデルはニューラルスパイク信号をCLIP-VisionとCLIP-Textの機能にマッピングし、Versatile Diffusionがイメージ・ツー・イメージ生成を通じて画像を洗練できるようにする。
- 参考スコア(独自算出の注目度): 5.548812823537946
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reconstructing natural visual scenes from neural activity is a key challenge in neuroscience and computer vision. We present SpikeVAEDiff, a novel two-stage framework that combines a Very Deep Variational Autoencoder (VDVAE) and the Versatile Diffusion model to generate high-resolution and semantically meaningful image reconstructions from neural spike data. In the first stage, VDVAE produces low-resolution preliminary reconstructions by mapping neural spike signals to latent representations. In the second stage, regression models map neural spike signals to CLIP-Vision and CLIP-Text features, enabling Versatile Diffusion to refine the images via image-to-image generation. We evaluate our approach on the Allen Visual Coding-Neuropixels dataset and analyze different brain regions. Our results show that the VISI region exhibits the most prominent activation and plays a key role in reconstruction quality. We present both successful and unsuccessful reconstruction examples, reflecting the challenges of decoding neural activity. Compared with fMRI-based approaches, spike data provides superior temporal and spatial resolution. We further validate the effectiveness of the VDVAE model and conduct ablation studies demonstrating that data from specific brain regions significantly enhances reconstruction performance.
- Abstract(参考訳): 神経活動から自然の視覚シーンを再構築することは神経科学とコンピュータビジョンにおける重要な課題である。
We present SpikeVAediff, a novel two-stage framework that a Very Deep Variational Autoencoder (VDVAE) and the Versatile Diffusion model to generate high- resolution and semantically meaningful image reconstruction from Neural spike data。
第1段階では、VDVAEはニューラルスパイク信号を潜在表現にマッピングすることで、低分解能の予備再構成を生成する。
第2段階では、回帰モデルはニューラルスパイク信号をCLIP-VisionとCLIP-Textの機能にマッピングし、Versatile Diffusionがイメージ・ツー・イメージ生成を通じて画像を洗練できるようにする。
我々は、Allen Visual Coding-Neuropixelsデータセットに対するアプローチを評価し、異なる脳領域を解析した。
以上の結果から,VISI領域は最も顕著な活性化を示し,再建の質に重要な役割を担っていることが明らかとなった。
神経活動の復号化の課題を反映して,再建例と再建例の両例を提示する。
fMRIによるアプローチと比較して、スパイクデータは時間分解能と空間分解能に優れる。
我々はVDVAEモデルの有効性をさらに検証し、特定の脳領域のデータが再構成性能を大幅に向上させることを示すアブレーション研究を行った。
関連論文リスト
- Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction [65.67001243986981]
我々は,スケールワイド自己回帰モデルに基づく粗大なfMRI画像再構成フレームワークであるMindHierを提案する。
MindHierは、拡散ベースのベースラインよりも優れたセマンティック忠実さ、4.67倍高速な推論、より決定論的結果を達成する。
論文 参考訳(メタデータ) (2025-10-25T15:40:07Z) - Optimized two-stage AI-based Neural Decoding for Enhanced Visual Stimulus Reconstruction from fMRI Data [2.0851013563386247]
本研究は、fMRI遅延空間表現を改善するための非線形ディープネットワークを提案し、次元性も同様に最適化する。
Natural Scenesデータセットの実験により、提案されたアーキテクチャは、最先端のモデルに関して、再構成された画像の構造的類似性を約2%改善した。
LDMのノイズ感度解析により,第1ステージの役割は,高い構造的類似性を有する刺激を予測するのに基本的であることが示された。
論文 参考訳(メタデータ) (2024-12-17T16:42:55Z) - Intraoperative Registration by Cross-Modal Inverse Neural Rendering [61.687068931599846]
クロスモーダル逆ニューラルレンダリングによる神経外科手術における術中3D/2Dレジストレーションのための新しいアプローチを提案する。
本手法では,暗黙の神経表現を2つの構成要素に分離し,術前および術中における解剖学的構造について検討した。
臨床症例の振り返りデータを用いて本法の有効性を検証し,現在の登録基準を満たした状態での最先端の検査成績を示した。
論文 参考訳(メタデータ) (2024-09-18T13:40:59Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - NeuralDiffuser: Neuroscience-inspired Diffusion Guidance for fMRI Visual Reconstruction [25.987801733791986]
本稿では,主視覚的特徴指導を取り入れたNeuralDiffuserを提案し,勾配の形で詳細な手がかりを提供する。
拡散モデルにおけるボトムアッププロセスの拡張は、視覚刺激を再構成する際に意味的コヒーレンスと詳細忠実性の両方を達成する。
論文 参考訳(メタデータ) (2024-02-21T13:46:25Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Natural scene reconstruction from fMRI signals using generative latent
diffusion [1.90365714903665]
我々はBrain-Diffuserと呼ばれる2段階のシーン再構築フレームワークを提示する。
第1段階では、VDVAE(Very Deep Vari Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。
第2段階では、予測されたマルチモーダル(テキストおよび視覚)特徴に基づいて、遅延拡散モデルのイメージ・ツー・イメージ・フレームワークを使用する。
論文 参考訳(メタデータ) (2023-03-09T15:24:26Z) - Convolutional Neural Generative Coding: Scaling Predictive Coding to
Natural Images [79.07468367923619]
畳み込み型神経生成符号化(Conv-NGC)を開発した。
我々は、潜伏状態マップを段階的に洗練する柔軟な神経生物学的動機付けアルゴリズムを実装した。
本研究は,脳にインスパイアされたニューラル・システムによる再建と画像復調の課題に対する効果について検討する。
論文 参考訳(メタデータ) (2022-11-22T06:42:41Z) - Retinopathy of Prematurity Stage Diagnosis Using Object Segmentation and
Convolutional Neural Networks [68.96150598294072]
未熟児網膜症(英: Retinopathy of Prematurity、ROP)は、主に体重の低い未熟児に影響を及ぼす眼疾患である。
網膜の血管の増殖を招き、視力喪失を招き、最終的には網膜剥離を招き、失明を引き起こす。
近年,ディープラーニングを用いて診断を自動化する試みが盛んに行われている。
本稿では,従来のモデルの成功を基盤として,オブジェクトセグメンテーションと畳み込みニューラルネットワーク(CNN)を組み合わせた新しいアーキテクチャを開発する。
提案システムでは,まず対象分割モデルを訓練し,画素レベルでの区切り線を識別し,その結果のマスクを追加の"カラー"チャネルとして付加する。
論文 参考訳(メタデータ) (2020-04-03T14:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。