論文の概要: SWIM: Short-Window CNN Integrated with Mamba for EEG-Based Auditory Spatial Attention Decoding
- arxiv url: http://arxiv.org/abs/2409.19884v1
- Date: Mon, 30 Sep 2024 02:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:58:43.309170
- Title: SWIM: Short-Window CNN Integrated with Mamba for EEG-Based Auditory Spatial Attention Decoding
- Title(参考訳): SWIM:mambaと統合した短絡CNNによる脳波を用いた聴覚空間注意復号
- Authors: Ziyang Zhang, Andrew Thwaites, Alexandra Woolgar, Brian Moore, Chao Zhang,
- Abstract要約: 音声エンベロープに依存しない脳波(EEG)信号から聴覚注意の軌跡を特定するため,SWIMと呼ばれる新しいモデルを提案する。
SWIMは2つの部分から構成される。1つはショートウインドウCNN(SW$_textCNN$)で、短期的なEEG特徴抽出器として機能する。
第2部であるMambaは、最初に聴覚空間注意復号法に適用されたシーケンスモデルである。
- 参考スコア(独自算出の注目度): 49.295060801806606
- License:
- Abstract: In complex auditory environments, the human auditory system possesses the remarkable ability to focus on a specific speaker while disregarding others. In this study, a new model named SWIM, a short-window convolution neural network (CNN) integrated with Mamba, is proposed for identifying the locus of auditory attention (left or right) from electroencephalography (EEG) signals without relying on speech envelopes. SWIM consists of two parts. The first is a short-window CNN (SW$_\text{CNN}$), which acts as a short-term EEG feature extractor and achieves a final accuracy of 84.9% in the leave-one-speaker-out setup on the widely used KUL dataset. This improvement is due to the use of an improved CNN structure, data augmentation, multitask training, and model combination. The second part, Mamba, is a sequence model first applied to auditory spatial attention decoding to leverage the long-term dependency from previous SW$_\text{CNN}$ time steps. By joint training SW$_\text{CNN}$ and Mamba, the proposed SWIM structure uses both short-term and long-term information and achieves an accuracy of 86.2%, which reduces the classification errors by a relative 31.0% compared to the previous state-of-the-art result. The source code is available at https://github.com/windowso/SWIM-ASAD.
- Abstract(参考訳): 複雑な聴覚環境においては、人間の聴覚システムは、他者を無視しながら特定の話者に集中する顕著な能力を持っている。
本研究では,Mambaと統合された短時間の畳み込みニューラルネットワーク(CNN)であるSWIMという新しいモデルを提案し,音声エンベロープに依存しない脳波信号から聴覚注意の軌跡(左右)を同定した。
SWIMは2つの部分から構成される。
1つはショートウインドウのCNN(SW$_\text{CNN}$)で、これは短期的なEEG特徴抽出器として機能し、広く使われているKULデータセットにおいて、最後の84.9%の精度を達成する。
この改善は、改良されたCNN構造、データ拡張、マルチタスクトレーニング、モデルの組み合わせによって実現されている。
第2部であるMambaは、前回のSW$_\text{CNN}$時間ステップからの長期依存性を活用するために、最初に聴覚空間注意復号に適用されるシーケンスモデルである。
SW$_\text{CNN}$とMambaの合同トレーニングにより、提案したSWIM構造は短期情報と長期情報の両方を使用し、86.2%の精度で分類誤差を31.0%削減する。
ソースコードはhttps://github.com/windowso/SWIM-ASADで公開されている。
関連論文リスト
- Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。
適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。
本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文 参考訳(メタデータ) (2024-06-10T07:36:55Z) - Corticomorphic Hybrid CNN-SNN Architecture for EEG-based Low-footprint
Low-latency Auditory Attention Detection [8.549433398954738]
マルチスピーカー「カクテルパーティー」のシナリオでは、リスナーは興味のある話者に選択的に出席することができる。
ニューラルネットワーク(ANN)を用いた脳波による聴覚的注意検出の最近の動向は,エッジコンピューティングプラットフォームでは実用的ではない。
聴覚野に触発されたハイブリッド畳み込みニューラルネットワーク(CNN-SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:33:39Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - KE-RCNN: Unifying Knowledge based Reasoning into Part-level Attribute
Parsing [115.55331747000844]
部分レベルの解析は基本的だが難しい作業であり、説明可能な身体部分の詳細を提供するには領域レベルの視覚的理解が必要である。
既存のほとんどのアプローチでは、属性予測ヘッドを備えた地域畳み込みニューラルネットワーク(RCNN)を2段階検出器に追加することでこの問題に対処している。
暗黙の知識を含む豊富な知識を活用することで属性を識別するための知識埋め込みRCNN(KE-RCNN)を提案する。
論文 参考訳(メタデータ) (2022-06-21T07:05:14Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - SpeechNAS: Towards Better Trade-off between Latency and Accuracy for
Large-Scale Speaker Verification [26.028985033942735]
本研究では,ニューラルアーキテクチャサーチ(NAS)を用いたTDNNに基づく探索空間から最適アーキテクチャを同定する。
我々の導出した最良のニューラルネットワークはVoxCeleb1の標準テストセットで1.02%の誤差率(EER)を達成する。
論文 参考訳(メタデータ) (2021-09-18T05:31:27Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - A temporal-to-spatial deep convolutional neural network for
classification of hand movements from multichannel electromyography data [0.14502611532302037]
我々は,マルチチャネルsEMGのための深部CNNにおける初期処理層の設計を提案し,評価する新しい貢献を行う。
本稿では,各sEMGチャネル上で第1層が個別に畳み込みを行い,時間的特徴を抽出する,新しい時間的空間的CNNアーキテクチャを提案する。
我々の新しいTtS CNN設計はデータベース1では66.6%、データベース2では67.8%の精度を実現している。
論文 参考訳(メタデータ) (2020-07-16T09:11:26Z) - Acoustic Scene Classification Using Bilinear Pooling on Time-liked and
Frequency-liked Convolution Neural Network [4.131608702779222]
本稿では、高調波とパーカッシブ音源分離(HPSS)を用いて、音声を高調波とパーカッシブ音源に分割する方法について検討する。
これら2つのCNNから抽出された深い特徴は、双線形プールによって結合される。
このモデルはDCASE 2019サブタスク1aデータセットで評価されており、開発データセットで平均65%のスコアを得ている。
論文 参考訳(メタデータ) (2020-02-14T04:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。