論文の概要: DPSNN: Spiking Neural Network for Low-Latency Streaming Speech Enhancement
- arxiv url: http://arxiv.org/abs/2408.07388v1
- Date: Wed, 14 Aug 2024 09:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:54:15.325576
- Title: DPSNN: Spiking Neural Network for Low-Latency Streaming Speech Enhancement
- Title(参考訳): DPSNN:低レイテンシストリーム音声強調のためのスパイクニューラルネットワーク
- Authors: Tao Sun, Sander Bohté,
- Abstract要約: 音声強調は、ノイズの多い環境でのコミュニケーションを改善し、自動音声認識、補聴器、電気通信などの分野に影響を与える。
スパイキングニューラルネットワーク(SNN)の形でのニューロモルフィックアルゴリズムには大きな可能性がある。
DPSNN(Dual-Path Spiking Neural Network)と呼ばれる2段階の時間領域ストリーミングSNNフレームワークを開発した。
- 参考スコア(独自算出の注目度): 3.409728296852651
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech enhancement (SE) improves communication in noisy environments, affecting areas such as automatic speech recognition, hearing aids, and telecommunications. With these domains typically being power-constrained and event-based while requiring low latency, neuromorphic algorithms in the form of spiking neural networks (SNNs) have great potential. Yet, current effective SNN solutions require a contextual sampling window imposing substantial latency, typically around 32ms, too long for many applications. Inspired by Dual-Path Spiking Neural Networks (DPSNNs) in classical neural networks, we develop a two-phase time-domain streaming SNN framework -- the Dual-Path Spiking Neural Network (DPSNN). In the DPSNN, the first phase uses Spiking Convolutional Neural Networks (SCNNs) to capture global contextual information, while the second phase uses Spiking Recurrent Neural Networks (SRNNs) to focus on frequency-related features. In addition, the regularizer suppresses activation to further enhance energy efficiency of our DPSNNs. Evaluating on the VCTK and Intel DNS Datasets, we demonstrate that our approach achieves the very low latency (approximately 5ms) required for applications like hearing aids, while demonstrating excellent signal-to-noise ratio (SNR), perceptual quality, and energy efficiency.
- Abstract(参考訳): 音声強調(SE)は、ノイズの多い環境でのコミュニケーションを改善し、自動音声認識、補聴器、電気通信などの分野に影響を与える。
これらのドメインは通常、低レイテンシを必要とする一方で、電力制約とイベントベースのため、スパイキングニューラルネットワーク(SNN)という形でニューロモルフィックアルゴリズムには大きな可能性がある。
しかし、現在の効果的なSNNソリューションは、多くのアプリケーションでは長すぎる32ミリ秒の遅延を、コンテキスト的にサンプリングするウィンドウを必要とする。
従来のニューラルネットワークではDual-Path Spiking Neural Networks(DPSNN)にヒントを得て,Dual-Path Spiking Neural Network(DPSNN)と呼ばれる2フェーズのタイムドメインストリーミングSNNフレームワークを開発した。
DPSNNでは、第1フェーズはSpyking Convolutional Neural Networks(SCNN)を使用してグローバルなコンテキスト情報をキャプチャし、第2フェーズはSpiking Recurrent Neural Networks(SRNN)を使用して周波数関連機能にフォーカスする。
さらに、レギュレータは活性化を抑制し、DPSNNのエネルギー効率をさらに高めます。
VCTKとIntel DNSデータセットに基づいて,本手法は補聴器などのアプリケーションに必要な非常に低レイテンシ(約5ms)を実現するとともに,優れた信号対雑音比(SNR),知覚品質,エネルギー効率を示す。
関連論文リスト
- sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Fully Spiking Actor Network with Intra-layer Connections for
Reinforcement Learning [51.386945803485084]
エージェントが制御する多次元決定論的ポリシーを学習する必要があるタスクに焦点をあてる。
既存のスパイクベースのRL法は、SNNの出力として発火率を取り、完全に接続された層を通して連続的なアクション空間(つまり決定論的なポリシー)を表すように変換する。
浮動小数点行列操作を伴わない完全にスパイクするアクターネットワークを開発するため,昆虫に見られる非スパイク介在ニューロンからインスピレーションを得た。
論文 参考訳(メタデータ) (2024-01-09T07:31:34Z) - LC-TTFS: Towards Lossless Network Conversion for Spiking Neural Networks
with TTFS Coding [55.64533786293656]
我々は,AIタスクにおいて,ANNのアクティベーション値とSNNのスパイク時間とのほぼ完全なマッピングを実現することができることを示す。
この研究は、電力制約のあるエッジコンピューティングプラットフォームに超低消費電力のTTFSベースのSNNをデプロイする方法を舗装している。
論文 参考訳(メタデータ) (2023-10-23T14:26:16Z) - Single Channel Speech Enhancement Using U-Net Spiking Neural Networks [2.436681150766912]
音声強調(SE)は、信頼性の高い通信装置や頑健な音声認識システムに不可欠である。
U-Netアーキテクチャに基づくスパイキングニューラルネットワーク(SNN)を用いたSEに対する新しいアプローチを提案する。
SNNは音声などの時間次元のデータ処理に適しており、ニューロモルフィックハードウェア上でのエネルギー効率のよい実装で知られている。
論文 参考訳(メタデータ) (2023-07-26T19:10:29Z) - Noise-Robust Deep Spiking Neural Networks with Temporal Information [22.278159848657754]
スパイクニューラルネットワーク(SNN)は、時間情報を持つエネルギー効率の良いニューラルネットワークとして登場した。
SNNはニューロモルフィックデバイスに優れた効率を示してきましたが、デバイスはノイズの影響を受けやすく、現実世界のアプリケーションに適用されることを妨げます。
本稿では,ニューラルコーディング法を用いた深部SNNに対するノイズの影響を検討し,時間情報を用いた雑音燃焼型深部SNNを提案する。
論文 参考訳(メタデータ) (2021-04-22T16:40:33Z) - Combining Spiking Neural Network and Artificial Neural Network for
Enhanced Image Classification [1.8411688477000185]
生物学的脳シナプスによく似たSNN(spiking neural Network)は、低消費電力のために注目を集めている。
我々は、関係する性能を改善する汎用ハイブリッドニューラルネットワーク(hnn)を構築した。
論文 参考訳(メタデータ) (2021-02-21T12:03:16Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - You Only Spike Once: Improving Energy-Efficient Neuromorphic Inference
to ANN-Level Accuracy [51.861168222799186]
スパイキングニューラルネットワーク(英: Spiking Neural Networks、SNN)は、神経型ネットワークの一種である。
SNNはスパースであり、重量はごくわずかであり、通常、より電力集約的な乗算および累積演算の代わりに追加操作のみを使用する。
本研究では,TTFS符号化ニューロモルフィックシステムの限界を克服することを目的としている。
論文 参考訳(メタデータ) (2020-06-03T15:55:53Z) - T2FSNN: Deep Spiking Neural Networks with Time-to-first-spike Coding [26.654533157221973]
本稿では,カーネルベースの動的しきい値とデンドライトを用いて,深層SNNにタイム・ツー・ファースト・スパイク・コーディングを組み込むことによって,その欠点を克服する手法を提案する。
提案手法は,バースト符号化法と比較して,推定遅延とスパイク回数を22%,1%以下に削減できる。
論文 参考訳(メタデータ) (2020-03-26T04:39:12Z) - SiamSNN: Siamese Spiking Neural Networks for Energy-Efficient Object
Tracking [20.595208488431766]
SiamSNNは、視覚オブジェクト追跡ベンチマークであるTB2013, VOT2016, GOT-10kにおいて、短いレイテンシと低い精度の損失を達成する最初のディープSNNトラッカーである。
SiamSNNは、ニューロモルフィックチップTrueNorth上で低エネルギー消費とリアルタイムを実現する。
論文 参考訳(メタデータ) (2020-03-17T08:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。