論文の概要: Spec2VolCAMU-Net: A Spectrogram-to-Volume Model for EEG-to-fMRI Reconstruction based on Multi-directional Time-Frequency Convolutional Attention Encoder and Vision-Mamba U-Net
- arxiv url: http://arxiv.org/abs/2505.09521v1
- Date: Wed, 14 May 2025 16:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.528248
- Title: Spec2VolCAMU-Net: A Spectrogram-to-Volume Model for EEG-to-fMRI Reconstruction based on Multi-directional Time-Frequency Convolutional Attention Encoder and Vision-Mamba U-Net
- Title(参考訳): Spec2VolCAMU-Net:多方向時間周波数畳み込みアテンションエンコーダとビジョンマンバU-ネットに基づく脳波-fMRI再構成のための分光モデル
- Authors: Dongyi He, Shiyang Li, Bin Jiang, He Yan,
- Abstract要約: 高分解能核磁気共鳴イメージング(fMRI)はヒト脳活動のマッピングに不可欠である。
既存のEEG-to-fMRIジェネレータは、チャネル間の時間周波数キューをキャプチャできない普通のCNNに依存している。
時間周波数畳み込みアテンションを介してこれらの問題に直面する軽量の分光器であるSpec2VolCAMU-Netを提案する。
- 参考スコア(独自算出の注目度): 12.862801292260833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution functional magnetic resonance imaging (fMRI) is essential for mapping human brain activity; however, it remains costly and logistically challenging. If comparable volumes could be generated directly from widely available scalp electroencephalography (EEG), advanced neuroimaging would become significantly more accessible. Existing EEG-to-fMRI generators rely on plain CNNs that fail to capture cross-channel time-frequency cues or on heavy transformer/GAN decoders that strain memory and stability. We propose Spec2VolCAMU-Net, a lightweight spectrogram-to-volume generator that confronts these issues via a Multi-directional Time-Frequency Convolutional Attention Encoder, stacking temporal, spectral and joint convolutions with self-attention, and a Vision-Mamba U-Net decoder whose linear-time state-space blocks enable efficient long-range spatial modelling. Trained end-to-end with a hybrid SSI-MSE loss, Spec2VolCAMU-Net achieves state-of-the-art fidelity on three public benchmarks, recording SSIMs of 0.693 on NODDI, 0.725 on Oddball and 0.788 on CN-EPFL, representing improvements of 14.5%, 14.9%, and 16.9% respectively over previous best SSIM scores. Furthermore, it achieves competitive PSNR scores, particularly excelling on the CN-EPFL dataset with a 4.6% improvement over the previous best PSNR, thus striking a better balance in reconstruction quality. The proposed model is lightweight and efficient, making it suitable for real-time applications in clinical and research settings. The code is available at https://github.com/hdy6438/Spec2VolCAMU-Net.
- Abstract(参考訳): 高分解能核磁気共鳴イメージング(fMRI)は、人間の脳活動のマッピングに不可欠であるが、費用がかかり、論理的にも困難である。
利用可能な頭皮脳波(EEG)から直接同等の容積が生成されると、高度な神経画像がよりアクセスしやすくなります。
既存のEEG-to-fMRIジェネレータは、チャネル間の時間周波数キューをキャプチャできない普通のCNNや、メモリと安定性を歪ませる重いトランスフォーマー/GANデコーダに依存している。
提案するSpec2VolCAMU-Netは,時間・スペクトル・共同畳み込みを自己アテンションで積み重ねる多方向コンボリューション・アテンション・エンコーダと,線形時間状態空間ブロックを有効活用するビジョン・マンバU-Netデコーダにより,これらの問題に直面する軽量なスペクトログラム・ツー・ボリューム・ジェネレータである。
Spec2VolCAMU-NetはハイブリッドSSI-MSEの損失を生かしたエンドツーエンドで、NODDIで0.693、Oddballで0.725、CN-EPFLで0.788、それぞれ14.5%、14.9%、および16.9%という3つの公開ベンチマークで最先端の忠実性を達成している。
さらに、競争力のあるPSNRスコア、特にCN-EPFLデータセットでは、以前の最高のPSNRよりも4.6%改善され、復元品質のバランスが良くなった。
提案モデルは軽量で効率的であり,臨床および研究環境におけるリアルタイム応用に適したモデルである。
コードはhttps://github.com/hdy6438/Spec2VolCAMU-Netで公開されている。
関連論文リスト
- From Brainwaves to Brain Scans: A Robust Neural Network for EEG-to-fMRI Synthesis [4.710921988115686]
低コストの脳波データからfMRI画像を合成するための,シンプルで効果的なディープラーニングモデルであるE2fNetを提案する。
E2fNetは、EEGから電極チャネル間の有意義なマルチスケール機能を正確にfMRI表現にキャプチャし、翻訳するように設計されたエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2025-02-11T23:55:16Z) - Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - KFD-NeRF: Rethinking Dynamic NeRF with Kalman Filter [49.85369344101118]
KFD-NeRFは,Kalmanフィルタに基づく効率的かつ高品質な運動再構成フレームワークと統合された,新しい動的ニューラル放射場である。
我々のキーとなる考え方は、動的放射場を、観測と予測という2つの知識源に基づいて時間的に異なる状態が推定される動的システムとしてモデル化することである。
我々のKFD-NeRFは、同等の計算時間と最先端の視線合成性能で、徹底的な訓練を施した類似または優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-18T05:48:24Z) - Gated Attention Coding for Training High-performance and Efficient Spiking Neural Networks [22.66931446718083]
Gated Attention Coding (GAC) は、多次元アテンションユニットを利用して入力を効率よく強力な表現にエンコードするプラグイン・アンド・プレイモジュールである。
GACは、SNNのスパイク駆動特性を損なわない前処理層として機能する。
CIFAR10/100とImageNetデータセットの実験では、GACが最先端の精度を目覚ましい効率で達成していることが示されている。
論文 参考訳(メタデータ) (2023-08-12T14:42:02Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - HYPER-SNN: Towards Energy-efficient Quantized Deep Spiking Neural
Networks for Hyperspectral Image Classification [5.094623170336122]
スパイキングニューラルネットワーク(SNN)は、重量、膜漏れ、発射閾値を最適化するために量子化対応の勾配降下を訓練する。
トレーニングと推論の両方の間、HSIのアナログ画素値はスパイクトレインに変換することなくSNNの入力層に直接適用される。
3次元および3次元/2次元ハイブリッド畳み込みアーキテクチャ上での3つのHSIデータセットを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-07-26T06:17:10Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。