論文の概要: Temporal Information Reconstruction and Non-Aligned Residual in Spiking Neural Networks for Speech Classification
- arxiv url: http://arxiv.org/abs/2501.00348v1
- Date: Tue, 31 Dec 2024 08:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:17.930921
- Title: Temporal Information Reconstruction and Non-Aligned Residual in Spiking Neural Networks for Speech Classification
- Title(参考訳): 音声分類のためのスパイキングニューラルネットワークにおける時間情報再構成と非調整残差
- Authors: Qi Zhang, Huamin Wang, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang,
- Abstract要約: スパイキングニューラルネットワーク(SNN)に基づくほとんどのモデルは、音声分類問題に対処するために、同じレベルの時間分解のみを使用する。
本稿では,人間の脳の階層的処理プロセスを参照して,時間的再構成(TR)と呼ばれる新しい手法を提案する。
また, 音声データを解析し, 残差接続を異なる時間長の2つの音声データに利用できるようにするNon-Aligned Residual (NAR)法を提案する。
- 参考スコア(独自算出の注目度): 45.30468752468433
- License:
- Abstract: Recently, it can be noticed that most models based on spiking neural networks (SNNs) only use a same level temporal resolution to deal with speech classification problems, which makes these models cannot learn the information of input data at different temporal scales. Additionally, owing to the different time lengths of the data before and after the sub-modules of many models, the effective residual connections cannot be applied to optimize the training processes of these models.To solve these problems, on the one hand, we reconstruct the temporal dimension of the audio spectrum to propose a novel method named as Temporal Reconstruction (TR) by referring the hierarchical processing process of the human brain for understanding speech. Then, the reconstructed SNN model with TR can learn the information of input data at different temporal scales and model more comprehensive semantic information from audio data because it enables the networks to learn the information of input data at different temporal resolutions. On the other hand, we propose the Non-Aligned Residual (NAR) method by analyzing the audio data, which allows the residual connection can be used in two audio data with different time lengths. We have conducted plentiful experiments on the Spiking Speech Commands (SSC), the Spiking Heidelberg Digits (SHD), and the Google Speech Commands v0.02 (GSC) datasets. According to the experiment results, we have achieved the state-of-the-art (SOTA) result 81.02\% on SSC for the test classification accuracy of all SNN models, and we have obtained the SOTA result 96.04\% on SHD for the classification accuracy of all models.
- Abstract(参考訳): 近年、スパイキングニューラルネットワーク(SNN)に基づくほとんどのモデルでは、音声分類問題に対処するために同じレベルの時間分解しか使用せず、これらのモデルでは異なる時間スケールで入力データの情報を学習できないことが注目されている。
また,多くのモデルのサブモジュールの前後のデータの時間長が異なるため,これらのモデルのトレーニングプロセスの最適化には有効な残差接続は適用できない。一方,音声スペクトルの時間次元を再構築し,人間の脳の階層的処理プロセスを参照して,時間的再構成(TR)と呼ばれる新しい手法を提案する。
そして、TRを用いた再構成SNNモデルは、異なる時間スケールで入力データの情報を学習し、異なる時間解像度で入力データの情報を学習できるようにするため、音声データからより包括的な意味情報をモデル化することができる。
一方、音声データを解析し、残差接続を異なる時間長の2つの音声データに利用できるようにする非アラインド残差法(NAR)を提案する。
我々は、Spking Speech Commands (SSC)、Spking Heidelberg Digits (SHD)、Google Speech Commands v0.02 (GSC)データセットについて、豊富な実験を行った。
実験結果から,全SNNモデルの試験分類精度は,SSCで81.02\%,SHDで96.04\%を得た。
関連論文リスト
- Zero-Shot Temporal Resolution Domain Adaptation for Spiking Neural Networks [3.2366933261812076]
スパイキングニューラルネットワーク(SNN)は、生物学的にインスパイアされたディープニューラルネットワークであり、時間的情報を効率的に抽出する。
SNNモデルパラメータは時間分解能に敏感であり、エッジでのターゲットデータの時間分解能が同じでない場合、大幅な性能低下を引き起こす。
本稿では,ニューロンパラメータを適応させる3つの新しい領域適応手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T14:58:51Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Few-shot Learning using Data Augmentation and Time-Frequency
Transformation for Time Series Classification [6.830148185797109]
データ拡張による新しい数ショット学習フレームワークを提案する。
シークエンス・スペクトログラム・ニューラルネット(SSNN)も開発している。
本手法は,時系列分類における数ショット問題への対処法の適用性を実証する。
論文 参考訳(メタデータ) (2023-11-06T15:32:50Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Neural ODEs with Irregular and Noisy Data [8.349349605334316]
ノイズや不規則なサンプル測定を用いて微分方程式を学習する手法について議論する。
我々の方法論では、ディープニューラルネットワークとニューラル常微分方程式(ODE)アプローチの統合において、大きな革新が見られる。
ベクトル場を記述するモデルを学習するためのフレームワークは,雑音測定において非常に効果的である。
論文 参考訳(メタデータ) (2022-05-19T11:24:41Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - CARRNN: A Continuous Autoregressive Recurrent Neural Network for Deep
Representation Learning from Sporadic Temporal Data [1.8352113484137622]
本稿では,散発データにおける複数の時間的特徴をモデル化するための新しい深層学習モデルを提案する。
提案モデルはCARRNNと呼ばれ、時間ラグによって変調されたニューラルネットワークを用いてエンドツーエンドにトレーニング可能な一般化された離散時間自己回帰モデルを使用する。
アルツハイマー病進行モデルおよび集中治療単位(ICU)死亡率予測のためのデータを用いて,多変量時系列回帰タスクに適用した。
論文 参考訳(メタデータ) (2021-04-08T12:43:44Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。