論文の概要: Corticomorphic Hybrid CNN-SNN Architecture for EEG-based Low-footprint
Low-latency Auditory Attention Detection
- arxiv url: http://arxiv.org/abs/2307.08501v1
- Date: Thu, 13 Jul 2023 20:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 13:07:56.067630
- Title: Corticomorphic Hybrid CNN-SNN Architecture for EEG-based Low-footprint
Low-latency Auditory Attention Detection
- Title(参考訳): 脳波を用いた低遅延聴覚検出のためのコルチコモルフィックハイブリッドCNN-SNNアーキテクチャ
- Authors: Richard Gall, Deniz Kocanaogullari, Murat Akcakaya, Deniz Erdogmus,
Rajkumar Kubendran
- Abstract要約: マルチスピーカー「カクテルパーティー」のシナリオでは、リスナーは興味のある話者に選択的に出席することができる。
ニューラルネットワーク(ANN)を用いた脳波による聴覚的注意検出の最近の動向は,エッジコンピューティングプラットフォームでは実用的ではない。
聴覚野に触発されたハイブリッド畳み込みニューラルネットワーク(CNN-SNN)アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 8.549433398954738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a multi-speaker "cocktail party" scenario, a listener can selectively
attend to a speaker of interest. Studies into the human auditory attention
network demonstrate cortical entrainment to speech envelopes resulting in
highly correlated Electroencephalography (EEG) measurements. Current trends in
EEG-based auditory attention detection (AAD) using artificial neural networks
(ANN) are not practical for edge-computing platforms due to longer decision
windows using several EEG channels, with higher power consumption and larger
memory footprint requirements. Nor are ANNs capable of accurately modeling the
brain's top-down attention network since the cortical organization is complex
and layer. In this paper, we propose a hybrid convolutional neural
network-spiking neural network (CNN-SNN) corticomorphic architecture, inspired
by the auditory cortex, which uses EEG data along with multi-speaker speech
envelopes to successfully decode auditory attention with low latency down to 1
second, using only 8 EEG electrodes strategically placed close to the auditory
cortex, at a significantly higher accuracy of 91.03%, compared to the
state-of-the-art. Simultaneously, when compared to a traditional CNN reference
model, our model uses ~15% fewer parameters at a lower bit precision resulting
in ~57% memory footprint reduction. The results show great promise for
edge-computing in brain-embedded devices, like smart hearing aids.
- Abstract(参考訳): マルチスピーカーの「カクテルパーティ」シナリオでは、聞き手は興味のある話者に選択的に出席することができる。
ヒト聴覚注意ネットワークの研究は、脳波(EEG)を高度に相関させた結果、音声エンベロープへの皮質刺激を示す。
人工ニューラルネットワーク(ANN)を用いた脳波による聴覚注意検出(AAD)の最近の傾向は、複数のEEGチャネルを用いたより長い意思決定ウィンドウによるエッジコンピューティングプラットフォームでは実用的ではない。
皮質組織が複雑で層状であるため、ANNは脳のトップダウン注意ネットワークを正確にモデル化することができない。
本稿では,脳波データとマルチスピーカ音声エンベロープを用いて,聴覚野近傍に戦略的に配置された8個のEEG電極のみを用いて,低レイテンシで聴覚注意を1秒以下に復号する,聴覚野に触発されたハイブリッド畳み込みニューラルネットワーク(CNN-SNN)のコルチコモルフィックアーキテクチャを提案する。
同時に、従来のcnn参照モデルと比較すると、より低いビット精度で15%少ないパラメータを使用し、メモリフットプリントが約57%削減される。
その結果、スマート補聴器など、脳に埋め込まれたデバイスではエッジコンピューティングが大いに期待できることがわかった。
関連論文リスト
- sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks [53.31894108974566]
Spiking-LEAFは、SNNベースの音声処理用に慎重に設計された学習可能な聴覚フロントエンドである。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、聴覚フロントエンドのSOTAよりも優れている。
論文 参考訳(メタデータ) (2023-09-18T04:03:05Z) - ElectrodeNet -- A Deep Learning Based Sound Coding Strategy for Cochlear
Implants [9.468136300919062]
ElectrodeNetは人工内耳(CI)のための深層学習に基づく音声符号化戦略
拡張ElectronNet-CS戦略は、さらにチャネル選択(CS)を取り入れている。
The Fast Fourier Transformed bins and channel envelopes obtained from the processing of clean speech by the ACE strategy。
論文 参考訳(メタデータ) (2023-05-26T09:06:04Z) - Mental arithmetic task classification with convolutional neural network
based on spectral-temporal features from EEG [0.47248250311484113]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンアプリケーションにおいて大きな優位性を示している。
ここでは、主に2つの畳み込みニューラルネットワーク層を使用し、比較的少ないパラメータと高速で脳波からスペクトル時間的特徴を学習する浅層ニューラルネットワークを提案する。
実験の結果、浅いCNNモデルは他の全てのモデルより優れており、最高分類精度は90.68%に達した。
論文 参考訳(メタデータ) (2022-09-26T02:15:22Z) - EEG-BBNet: a Hybrid Framework for Brain Biometric using Graph
Connectivity [1.1498015270151059]
我々は、畳み込みニューラルネットワーク(CNN)とグラフ畳み込みニューラルネットワーク(GCNN)を統合するハイブリッドネットワークであるEEG-BBNetを提案する。
我々のモデルは、イベント関連電位(ERP)タスクにおけるすべてのベースラインを、セッション内データを用いて平均99.26%の正確な認識率で上回ります。
論文 参考訳(メタデータ) (2022-08-17T10:18:22Z) - Convolutional Spiking Neural Networks for Detecting Anticipatory Brain Potentials Using Electroencephalogram [0.21847754147782888]
スパイキングニューラルネットワーク(SNN)は、生体系におけるシナプス接続を模倣しスパイクトレインを発生させるため、注目を集めている。
近年,畳み込みネットワークの特徴抽出能力とSNNの計算効率を組み合わせた畳み込み層が導入された。
本稿では、畳み込みスパイクニューラルネットワーク(CSNN)を用いて、予測速度の遅い大脳皮質電位を検出することの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-08-14T19:04:15Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。