論文の概要: Brain-Gen: Towards Interpreting Neural Signals for Stimulus Reconstruction Using Transformers and Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.18843v1
- Date: Sun, 21 Dec 2025 18:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.526412
- Title: Brain-Gen: Towards Interpreting Neural Signals for Stimulus Reconstruction Using Transformers and Latent Diffusion Models
- Title(参考訳): Brain-Gen: 変圧器と潜時拡散モデルを用いた刺激再構成のためのニューラル信号の解釈に向けて
- Authors: Hasib Aslam, Muhammad Talal Faiz, Muhammad Imran Malik,
- Abstract要約: 脳波記録から観察された視覚刺激に関連する空間的時間的表現を抽出する枠組みを提案する。
我々の研究は、脳波信号の一般化可能な意味解釈に向けた重要な一歩である。
- 参考スコア(独自算出の注目度): 1.479639149658596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in neuroscience and artificial intelligence have enabled preliminary decoding of brain activity. However, despite the progress, the interpretability of neural representations remains limited. A significant challenge arises from the intrinsic properties of electroencephalography (EEG) signals, including high noise levels, spatial diffusion, and pronounced temporal variability. To interpret the neural mechanism underlying thoughts, we propose a transformers-based framework to extract spatial-temporal representations associated with observed visual stimuli from EEG recordings. These features are subsequently incorporated into the attention mechanisms of Latent Diffusion Models (LDMs) to facilitate the reconstruction of visual stimuli from brain activity. The quantitative evaluations on publicly available benchmark datasets demonstrate that the proposed method excels at modeling the semantic structures from EEG signals; achieving up to 6.5% increase in latent space clustering accuracy and 11.8% increase in zero shot generalization across unseen classes while having comparable Inception Score and Fréchet Inception Distance with existing baselines. Our work marks a significant step towards generalizable semantic interpretation of the EEG signals.
- Abstract(参考訳): 神経科学と人工知能の進歩は、脳活動の予備的復号を可能にした。
しかし、進歩にもかかわらず、神経表現の解釈可能性はまだ限られている。
重要な課題は、高騒音レベル、空間拡散、時間変動の顕著さを含む脳波(EEG)信号の固有の性質から生じる。
脳波記録から観察された視覚刺激に関連する空間的時間的表現を抽出するトランスフォーマーに基づく枠組みを提案する。
これらの特徴はその後、脳活動からの視覚刺激の再構築を促進するために、潜在拡散モデル(LDM)の注意機構に組み込まれる。
脳波信号からのセマンティック構造をモデル化する上で,提案手法が優れていることを示す定量的評価結果として,潜在空間クラスタリング精度が最大6.5%向上し,未確認クラスのゼロショット一般化が11.8%向上し,既存のベースラインに匹敵するインセプションスコアとフレシェ・インセプションディスタンス(Fréchet Inception Distance)が得られた。
我々の研究は、脳波信号の一般化可能な意味解釈に向けた重要な一歩である。
関連論文リスト
- NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models [66.91449452840318]
我々は、コードブックベースのトークン化装置を中心としたスケーラブルな大脳波モデル(LBM)であるNeuroRVQを紹介する。
我々のトークンライザは, (i) フル周波数のニューラルスペクトルを捕捉するマルチスケール特徴抽出モジュール, (ii) 高精細符号化のための階層的残留ベクトル量子化(RVQ)コードブック, (iii) 効率的なトレーニングのためのEEG信号位相および振幅認識損失関数を統合する。
実験の結果,NeuroRVQは再建誤差を低くし,様々な下流タスクにおいて既存のLBMよりも優れることがわかった。
論文 参考訳(メタデータ) (2025-10-15T01:26:52Z) - Image-to-Brain Signal Generation for Visual Prosthesis with CLIP Guided Multimodal Diffusion Models [6.761875482596085]
画像からM/EEGを生成する最初の画像-脳信号フレームワークを提案する。
提案フレームワークは,事前学習したCLIPビジュアルエンコーダと,有意な拡張U-Net拡散モデルからなる。
コンディショニングのための単純な結合に依存する従来の生成モデルとは異なり、我々のクロスアテンションモジュールは視覚的特徴と脳信号表現の間の複雑な相互作用を捉えている。
論文 参考訳(メタデータ) (2025-08-31T10:29:58Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - BrainStratify: Coarse-to-Fine Disentanglement of Intracranial Neural Dynamics [8.36470471250669]
ニューラルアクティビティから直接音声をデコードすることは、脳-コンピュータインターフェース(BCI)研究における中心的な目標である。
近年、脳内野電位記録(SEEG)やECoG(ElectroCorticoGraphy)など、頭蓋内野電位記録(intracranial field potential recordings)の利用により、エキサイティングな進歩がなされている。
i)タスク関連神経信号はsEEG電極に分散し、(ii)タスク関連神経信号をsEEGとECoの両方で絡み合うことが多い。
論文 参考訳(メタデータ) (2025-05-26T19:36:39Z) - BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals [46.121056431476156]
異種脳波とMEG記録を対象とする脳基礎モデルBrain Omniを提案する。
既存のアプローチは一般的に、パフォーマンスとクロスドメインのスケーラビリティを制限する、分離、モダリティ、データセット固有のモデルに依存します。
EEGの合計1,997時間、MEGデータの656時間は、事前トレーニングのために公開されているソースからキュレーションされ、標準化されている。
論文 参考訳(メタデータ) (2025-05-18T14:07:14Z) - CATD: Unified Representation Learning for EEG-to-fMRI Cross-Modal Generation [17.27095141003757]
本稿では,ニューロイメージングの終端から終端までのクロスモーダル合成のための条件付き時間拡散(CATD)フレームワークを提案する。
提案フレームワークは神経画像のクロスモーダル合成のための新しいパラダイムを確立し,パーキンソン病予測の改善や異常脳領域の同定などの医療応用の可能性を示唆している。
論文 参考訳(メタデータ) (2024-07-16T11:31:38Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - fMRI from EEG is only Deep Learning away: the use of interpretable DL to
unravel EEG-fMRI relationships [68.8204255655161]
多チャンネル脳波データからいくつかの皮質下領域の活性を回復するための解釈可能な領域基底解を提案する。
我々は,皮質下核の血行動態信号の頭皮脳波予測の空間的・時間的パターンを復元する。
論文 参考訳(メタデータ) (2022-10-23T15:11:37Z) - Neuro-BERT: Rethinking Masked Autoencoding for Self-supervised Neurological Pretraining [24.641328814546842]
本稿では、フーリエ領域におけるマスク付き自己エンコーディングに基づく神経信号の自己教師付き事前学習フレームワークであるNeuro-BERTを提案する。
本稿では、入力信号の一部をランダムにマスキングし、欠落した情報を予測するFourier Inversion Prediction (FIP)と呼ばれる新しい事前学習タスクを提案する。
提案手法をいくつかのベンチマークデータセットで評価することにより,Neuro-BERTは下流神経関連タスクを大きなマージンで改善することを示す。
論文 参考訳(メタデータ) (2022-04-20T16:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。