論文の概要: S$^2$M-Former: Spiking Symmetric Mixing Branchformer for Brain Auditory Attention Detection
- arxiv url: http://arxiv.org/abs/2508.05164v1
- Date: Thu, 07 Aug 2025 08:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.772603
- Title: S$^2$M-Former: Spiking Symmetric Mixing Branchformer for Brain Auditory Attention Detection
- Title(参考訳): S$2$M-Former:脳聴覚注意検出のためのスパイキング対称混合分岐器
- Authors: Jiaqi Wang, Zhengyu Ma, Xiongri Shen, Chenlin Zhou, Leilei Zhao, Han Zhang, Yi Zhong, Siqi Cai, Zhenxi Song, Zhiguo Zhang,
- Abstract要約: 聴覚注意検出(AAD)は、脳波(EEG)記録から、複雑な聴覚環境における聴取者の焦点を復号することを目的としている。
この制限に対処する新しいスパイキング対称混合フレームワークであるS$2$M-Formerを提案する。
S$2$M-Formerは、同等のSOTAデコード精度を実現し、AADタスクの低消費電力で高性能なソリューションとして期待できることを示す。
- 参考スコア(独自算出の注目度): 23.707315270369325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auditory attention detection (AAD) aims to decode listeners' focus in complex auditory environments from electroencephalography (EEG) recordings, which is crucial for developing neuro-steered hearing devices. Despite recent advancements, EEG-based AAD remains hindered by the absence of synergistic frameworks that can fully leverage complementary EEG features under energy-efficiency constraints. We propose S$^2$M-Former, a novel spiking symmetric mixing framework to address this limitation through two key innovations: i) Presenting a spike-driven symmetric architecture composed of parallel spatial and frequency branches with mirrored modular design, leveraging biologically plausible token-channel mixers to enhance complementary learning across branches; ii) Introducing lightweight 1D token sequences to replace conventional 3D operations, reducing parameters by 14.7$\times$. The brain-inspired spiking architecture further reduces power consumption, achieving a 5.8$\times$ energy reduction compared to recent ANN methods, while also surpassing existing SNN baselines in terms of parameter efficiency and performance. Comprehensive experiments on three AAD benchmarks (KUL, DTU and AV-GC-AAD) across three settings (within-trial, cross-trial and cross-subject) demonstrate that S$^2$M-Former achieves comparable state-of-the-art (SOTA) decoding accuracy, making it a promising low-power, high-performance solution for AAD tasks.
- Abstract(参考訳): 聴覚注意検出(AAD)は、脳波(EEG)記録から、聴取者の複雑な聴覚環境への焦点を復号することを目的としている。
近年の進歩にもかかわらず、EEGベースのAADは、エネルギー効率の制約の下で補完的なEEG機能を完全に活用できる相乗的フレームワークが欠如している。
S$^2$M-Formerは、2つの重要な革新を通してこの制限に対処するための新しいスパイキング対称混合フレームワークである。
一 パラレル空間及び周波数分岐からなるスパイク駆動型対称建築において、生物学的に可算なトークンチャネルミキサーを利用して、分岐間の相補的学習を強化すること。
ii) 従来の3D操作を置き換えるために軽量な1Dトークンシーケンスを導入し、パラメータを14.7$\times$に削減する。
脳にインスパイアされたスパイクアーキテクチャは電力消費をさらに減らし、最近のANN法に比べて5.8$\times$エネルギー削減を実現し、パラメータ効率と性能の点で既存のSNNベースラインを超えている。
3つのAADベンチマーク(KUL、DTU、AV-GC-AAD)の総合的な実験は、S$^2$M-Formerが同等のSOTAデコード精度を実現し、AADタスクの低消費電力で高性能なソリューションとして期待できることを示す。
関連論文リスト
- Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation [0.57492870498084]
我々は、もともとマルチバンド画像用に設計されたトランスフォーマーベースモデルであるAMBERを、3次元医療データキューブセグメンテーションのタスクに適用する。
AMBER-AFNOは、トレーニング効率、推論速度、メモリ使用量を大幅に向上させ、競争力または優れた精度を達成する。
論文 参考訳(メタデータ) (2025-08-03T22:31:00Z) - DNN-based Methods of Jointly Sensing Number and Directions of Targets via a Green Massive H2AD MIMO Receiver [11.642240670870454]
本稿では,複数の目標の数値と方向を共同で推定する2段階センシングフレームワークを提案する。
具体的には、改良された固有領域クラスタリング(EDC)フレームワーク、5つの重要な統計特徴に基づく拡張されたディープニューラルネットワーク(DNN)、完全な固有値を利用する改良された1次元畳み込みニューラルネットワーク(1D-CNN)の3つのターゲット番号検出方法が設計されている。
理論的性能ベンチマークとして,複数ソース条件下でのH2ADに対するCram'er-Rao下界(CRLB)を導出する。
論文 参考訳(メタデータ) (2025-07-15T09:30:57Z) - CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [53.539020807256904]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。
トークン化方式は、チャネルごとのパッチで脳波信号を表現します。
本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文 参考訳(メタデータ) (2025-01-18T21:44:38Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Dual-TSST: A Dual-Branch Temporal-Spectral-Spatial Transformer Model for EEG Decoding [2.0721229324537833]
デュアルブランチ時間スペクトル空間変換器(Dual-TSST)を用いた新しいデコードアーキテクチャネットワークを提案する。
提案するDual-TSSTは様々なタスクにおいて優れており,平均精度80.67%の脳波分類性能が期待できる。
本研究は,高性能脳波デコーディングへの新たなアプローチを提供するとともに,将来のCNN-Transformerベースのアプリケーションにも大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-09-05T05:08:43Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - End-to-End Complex-Valued Multidilated Convolutional Neural Network for
Joint Acoustic Echo Cancellation and Noise Suppression [25.04740291728234]
本稿では、複雑な時間周波数マスクのオフセット補償機能を活用し、エンドツーエンドの複雑なニューラルネットワークアーキテクチャを提案する。
また,同時音声強調による共同エコーと雑音抑圧のための二重マスク手法を提案する。
論文 参考訳(メタデータ) (2021-10-02T07:41:41Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。