論文の概要: Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2309.09469v2
- Date: Sat, 23 Mar 2024 04:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 03:07:37.046751
- Title: Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks
- Title(参考訳): Spiking-LEAF: ニューラルネットワークをスパイクするための学習可能な聴覚フロントエンド
- Authors: Zeyang Song, Jibin Wu, Malu Zhang, Mike Zheng Shou, Haizhou Li,
- Abstract要約: Spiking-LEAFは、SNNベースの音声処理用に慎重に設計された学習可能な聴覚フロントエンドである。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、聴覚フロントエンドのSOTAよりも優れている。
- 参考スコア(独自算出の注目度): 53.31894108974566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Brain-inspired spiking neural networks (SNNs) have demonstrated great potential for temporal signal processing. However, their performance in speech processing remains limited due to the lack of an effective auditory front-end. To address this limitation, we introduce Spiking-LEAF, a learnable auditory front-end meticulously designed for SNN-based speech processing. Spiking-LEAF combines a learnable filter bank with a novel two-compartment spiking neuron model called IHC-LIF. The IHC-LIF neurons draw inspiration from the structure of inner hair cells (IHC) and they leverage segregated dendritic and somatic compartments to effectively capture multi-scale temporal dynamics of speech signals. Additionally, the IHC-LIF neurons incorporate the lateral feedback mechanism along with spike regularization loss to enhance spike encoding efficiency. On keyword spotting and speaker identification tasks, the proposed Spiking-LEAF outperforms both SOTA spiking auditory front-ends and conventional real-valued acoustic features in terms of classification accuracy, noise robustness, and encoding efficiency.
- Abstract(参考訳): 脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、時間信号処理に大きな可能性を示している。
しかし, 音声処理におけるその性能は, 効果的な聴覚フロントエンドが欠如しているため, 依然として限られている。
この制限に対処するため,SNNに基づく音声処理のための学習可能なフロントエンドであるSpking-LEAFを導入する。
Spiking-LEAFは、学習可能なフィルターバンクと、IHC-LIFと呼ばれる新しい2成分スパイキングニューロンモデルを組み合わせる。
IHC-LIFニューロンは、内毛細胞(IHC)の構造からインスピレーションを受け、分離した樹状体と体細胞複合体を利用して、音声信号のマルチスケール時間的ダイナミクスを効果的に捉える。
さらに、IHC-LIFニューロンは、スパイク符号化効率を高めるために、スパイク正規化損失とともに横方向のフィードバック機構を組み込んでいる。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、分類精度、ノイズロバスト性、符号化効率の点で、SOTAスパイク聴覚フロントエンドと従来の実数値音響特性の両方に優れる。
関連論文リスト
- DPSNN: Spiking Neural Network for Low-Latency Streaming Speech Enhancement [3.409728296852651]
音声強調は、ノイズの多い環境でのコミュニケーションを改善し、自動音声認識、補聴器、電気通信などの分野に影響を与える。
スパイキングニューラルネットワーク(SNN)の形でのニューロモルフィックアルゴリズムには大きな可能性がある。
DPSNN(Dual-Path Spiking Neural Network)と呼ばれる2段階の時間領域ストリーミングSNNフレームワークを開発した。
論文 参考訳(メタデータ) (2024-08-14T09:08:43Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Inherent Redundancy in Spiking Neural Networks [24.114844269113746]
スパイキングネットワーク(SNN)は、従来の人工ニューラルネットワークに代わる有望なエネルギー効率の代替手段である。
本研究では,SNNにおける固有冗長性に関する3つの重要な疑問に焦点をあてる。
本稿では,SNNの冗長性を活用するためのアドバンストアテンション(ASA)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T08:58:25Z) - Corticomorphic Hybrid CNN-SNN Architecture for EEG-based Low-footprint
Low-latency Auditory Attention Detection [8.549433398954738]
マルチスピーカー「カクテルパーティー」のシナリオでは、リスナーは興味のある話者に選択的に出席することができる。
ニューラルネットワーク(ANN)を用いた脳波による聴覚的注意検出の最近の動向は,エッジコンピューティングプラットフォームでは実用的ではない。
聴覚野に触発されたハイブリッド畳み込みニューラルネットワーク(CNN-SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:33:39Z) - Exploiting High Performance Spiking Neural Networks with Efficient
Spiking Patterns [4.8416725611508244]
スパイキングニューラルネットワーク(SNN)は、離散スパイクシーケンスを使用して情報を伝達し、脳の情報伝達を著しく模倣する。
本稿では、動的バーストパターンを導入し、短時間の性能と動的時間的性能のトレードオフを可能にするLeaky Integrate and Fire or Burst(LIFB)ニューロンを設計する。
論文 参考訳(メタデータ) (2023-01-29T04:22:07Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - BackEISNN: A Deep Spiking Neural Network with Adaptive Self-Feedback and
Balanced Excitatory-Inhibitory Neurons [8.956708722109415]
スパイクニューラルネットワーク(SNN)は離散スパイクを通して情報を伝達し、空間時間情報を処理するのによく機能する。
適応型自己フィードバックと平衡興奮性および抑制性ニューロン(BackEISNN)を用いた深部スパイクニューラルネットワークを提案する。
MNIST、FashionMNIST、N-MNISTのデータセットに対して、我々のモデルは最先端の性能を達成した。
論文 参考訳(メタデータ) (2021-05-27T08:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。