論文の概要: sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2403.05772v1
- Date: Sat, 9 Mar 2024 02:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:33:51.231252
- Title: sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks
- Title(参考訳): svad:スパイクニューラルネットワークを用いたロバストで低消費電力、軽量な音声アクティビティ検出
- Authors: Qu Yang, Qianhui Liu, Nan Li, Meng Ge, Zeyang Song, Haizhou Li
- Abstract要約: スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
- 参考スコア(独自算出の注目度): 51.516451451719654
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Speech applications are expected to be low-power and robust under noisy
conditions. An effective Voice Activity Detection (VAD) front-end lowers the
computational need. Spiking Neural Networks (SNNs) are known to be biologically
plausible and power-efficient. However, SNN-based VADs have yet to achieve
noise robustness and often require large models for high performance. This
paper introduces a novel SNN-based VAD model, referred to as sVAD, which
features an auditory encoder with an SNN-based attention mechanism.
Particularly, it provides effective auditory feature representation through
SincNet and 1D convolution, and improves noise robustness with attention
mechanisms. The classifier utilizes Spiking Recurrent Neural Networks (sRNN) to
exploit temporal speech information. Experimental results demonstrate that our
sVAD achieves remarkable noise robustness and meanwhile maintains low power
consumption and a small footprint, making it a promising solution for
real-world VAD applications.
- Abstract(参考訳): 音声アプリケーションは雑音条件下では低電力で堅牢であることが期待される。
効果的なVoice Activity Detection (VAD)フロントエンドは、計算の必要性を低くする。
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で電力効率が高いことが知られている。
しかし、SNNベースのVADは、ノイズの頑健さをまだ達成していないため、しばしば高性能のために大きなモデルを必要とする。
本稿では、SNNベースのアテンション機構を備えた聴覚エンコーダを備えた新しいSNNベースのVADモデルであるsVADを提案する。
特に、SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構によるノイズロバスト性を改善する。
この分類器は、スパイキングリカレントニューラルネットワーク(sRNN)を用いて、時間的音声情報を利用する。
実験結果から,SVADは低消費電力化とフットプリントの小型化を実現し,実世界のVADアプリケーションにとって有望なソリューションであることがわかった。
関連論文リスト
- DPSNN: Spiking Neural Network for Low-Latency Streaming Speech Enhancement [3.409728296852651]
音声強調は、ノイズの多い環境でのコミュニケーションを改善し、自動音声認識、補聴器、電気通信などの分野に影響を与える。
スパイキングニューラルネットワーク(SNN)の形でのニューロモルフィックアルゴリズムには大きな可能性がある。
DPSNN(Dual-Path Spiking Neural Network)と呼ばれる2段階の時間領域ストリーミングSNNフレームワークを開発した。
論文 参考訳(メタデータ) (2024-08-14T09:08:43Z) - A Real-Time Voice Activity Detection Based On Lightweight Neural [4.589472292598182]
音声活動検出(Voice Activity Detection, VAD)は、音声ストリーム中の音声を検出するタスクである。
最近のニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。
我々は,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量でリアルタイムなニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:31:16Z) - Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks [53.31894108974566]
Spiking-LEAFは、SNNベースの音声処理用に慎重に設計された学習可能な聴覚フロントエンドである。
キーワードスポッティングと話者識別タスクにおいて、提案したSpking-LEAFは、聴覚フロントエンドのSOTAよりも優れている。
論文 参考訳(メタデータ) (2023-09-18T04:03:05Z) - Single Channel Speech Enhancement Using U-Net Spiking Neural Networks [2.436681150766912]
音声強調(SE)は、信頼性の高い通信装置や頑健な音声認識システムに不可欠である。
U-Netアーキテクチャに基づくスパイキングニューラルネットワーク(SNN)を用いたSEに対する新しいアプローチを提案する。
SNNは音声などの時間次元のデータ処理に適しており、ニューロモルフィックハードウェア上でのエネルギー効率のよい実装で知られている。
論文 参考訳(メタデータ) (2023-07-26T19:10:29Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - Robust Learning of Recurrent Neural Networks in Presence of Exogenous
Noise [22.690064709532873]
入力雑音を受けるRNNモデルに対するトラクタブルロバストネス解析を提案する。
線形化手法を用いてロバストネス測度を効率的に推定することができる。
提案手法はリカレントニューラルネットワークのロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2021-05-03T16:45:05Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。