論文の概要: Spiking Structured State Space Model for Monaural Speech Enhancement
- arxiv url: http://arxiv.org/abs/2309.03641v1
- Date: Thu, 7 Sep 2023 11:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:16:54.669107
- Title: Spiking Structured State Space Model for Monaural Speech Enhancement
- Title(参考訳): 単調音声強調のためのスパイキング構造状態空間モデル
- Authors: Yu Du, Xu Liu, Yansong Chua
- Abstract要約: 音声強調は、ノイズの多い信号からクリーンな音声を抽出しようとする。
従来のディープラーニング手法は、2つの課題に直面している。
このアプローチは、スパイキングニューラルネットワーク(SNN)のエネルギー効率と構造化状態空間モデル(S4)の長距離シーケンスモデリング能力を融合し、魅力的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 8.33734582571446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement seeks to extract clean speech from noisy signals.
Traditional deep learning methods face two challenges: efficiently using
information in long speech sequences and high computational costs. To address
these, we introduce the Spiking Structured State Space Model (Spiking-S4). This
approach merges the energy efficiency of Spiking Neural Networks (SNN) with the
long-range sequence modeling capabilities of Structured State Space Models
(S4), offering a compelling solution. Evaluation on the DNS Challenge and
VoiceBank+Demand Datasets confirms that Spiking-S4 rivals existing Artificial
Neural Network (ANN) methods but with fewer computational resources, as
evidenced by reduced parameters and Floating Point Operations (FLOPs).
- Abstract(参考訳): 音声強調は、ノイズの多い信号からクリーンな音声を抽出しようとする。
従来のディープラーニング手法は、2つの課題に直面している。
これらの問題に対処するために、スパイキング構造化状態空間モデル(Spiking-S4)を紹介する。
このアプローチは、スパイキングニューラルネットワーク(SNN)のエネルギー効率と構造化状態空間モデル(S4)の長距離シーケンスモデリング能力を融合し、魅力的なソリューションを提供する。
DNSチャレンジとVoiceBank+Demand Datasetsの評価によると、Spike-S4は既存のArtificial Neural Network(ANN)メソッドと競合するが、パラメータの削減と浮動小数点演算(FLOP)によって証明された計算リソースが少ない。
関連論文リスト
- Real-time Speech Enhancement on Raw Signals with Deep State-space Modeling [1.0650780147044159]
ATENNuateは、オンライン生音声の効率向上のために構成された、シンプルなディープな状態空間オートエンコーダである。
我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。
ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。
論文 参考訳(メタデータ) (2024-09-05T09:28:56Z) - SpikeVoice: High-Quality Text-to-Speech Via Efficient Spiking Neural Network [21.487450282438125]
スパイキングニューラルネットワーク(SNN)は、視覚、自然言語、音声理解タスクにおいて、その効果と効率を実証している。
SNNを介して高品質のテキスト音声(TTS)を実行するtextbfSpikeVoiceを設計し、SNNの「話す」可能性を探る。
論文 参考訳(メタデータ) (2024-07-17T15:22:52Z) - sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Fully Spiking Denoising Diffusion Implicit Models [61.32076130121347]
スパイキングニューラルネットワーク(SNN)は、超高速のニューロモルフィックデバイス上で走る能力のため、かなりの注目を集めている。
本研究では,SNN内で拡散モデルを構築するために,拡散暗黙モデル (FSDDIM) を完全にスパイクする新しい手法を提案する。
提案手法は,最先端の完全スパイク生成モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-04T09:07:09Z) - Constructing Deep Spiking Neural Networks from Artificial Neural
Networks with Knowledge Distillation [20.487853773309563]
スパイキングニューラルネットワーク(SNN)は、高い計算効率を持つ脳にインスパイアされたモデルとしてよく知られている。
知識蒸留(KD)を用いた深部SNNモデル構築手法を提案する。
論文 参考訳(メタデータ) (2023-04-12T05:57:21Z) - Spikformer: When Spiking Neural Network Meets Transformer [102.91330530210037]
本稿では,スパイキングニューラルネットワーク(SNN)と自己認識機構という,生物学的にもっとも有効な2つの構造について考察する。
我々は、スパイキング・セルフ・アテンション(SSA)と、スパイキング・トランスフォーマー(Spikformer)という強力なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T14:16:49Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Continuous Ant-Based Neural Topology Search [62.200941836913586]
この研究は、アリコロニー最適化に基づく、自然に着想を得たニューラルアーキテクチャサーチ(NAS)アルゴリズムを導入している。
連続アントベースのニューラルトポロジーサーチ(CANTS)は、アリが現実世界でどのように動くかに強く影響を受けている。
論文 参考訳(メタデータ) (2020-11-21T17:49:44Z) - Low-activity supervised convolutional spiking neural networks applied to
speech commands recognition [6.6389732792316005]
スパイキングニューラルネットワーク(SNN)は、教師付き方法で効率的に訓練することができる。
本稿では,拡張畳み込みスパイク層からなるモデルが,標準ディープニューラルネットワーク(DNN)に非常に近い誤差率に達することを示す。
また、LIFモデルが非リーキーモデルよりも優れており、ニューロン膜電位の漏洩をモデル化することが有用であることを示す。
論文 参考訳(メタデータ) (2020-11-13T10:29:35Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。