論文の概要: Efficient Speech Command Recognition Leveraging Spiking Neural Network and Curriculum Learning-based Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2412.12858v1
- Date: Tue, 17 Dec 2024 12:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:00.043892
- Title: Efficient Speech Command Recognition Leveraging Spiking Neural Network and Curriculum Learning-based Knowledge Distillation
- Title(参考訳): スパイクニューラルネットワークとカリキュラム学習に基づく知識蒸留を活用した効率的な音声コマンド認識
- Authors: Jiaqi Wang, Liutao Yu, Liwei Huang, Chenlin Zhou, Han Zhang, Zhenxi Song, Min Zhang, Zhengyu Ma, Zhiguo Zhang,
- Abstract要約: スパイクニューラルネットワーク(SNN)は、組み込みの時系列をタイムステップとして自然に活用することで、時間情報を処理するのに優れている。
近年,SNNの音声認識における有効性を示す研究が進められており,長い時間列に対して大きなステップを踏むことで高い性能を実現している。
効率的な表現学習のためのグローバルなハイブリッド構造を特徴とする,高性能な完全スパイク駆動型フレームワークSpikeSCRを提案する。
- 参考スコア(独自算出の注目度): 30.032453125056783
- License:
- Abstract: The intrinsic dynamics and event-driven nature of spiking neural networks (SNNs) make them excel in processing temporal information by naturally utilizing embedded time sequences as time steps. Recent studies adopting this approach have demonstrated SNNs' effectiveness in speech command recognition, achieving high performance by employing large time steps for long time sequences. However, the large time steps lead to increased deployment burdens for edge computing applications. Thus, it is important to balance high performance and low energy consumption when detecting temporal patterns in edge devices. Our solution comprises two key components. 1). We propose a high-performance fully spike-driven framework termed SpikeSCR, characterized by a global-local hybrid structure for efficient representation learning, which exhibits long-term learning capabilities with extended time steps. 2). To further fully embrace low energy consumption, we propose an effective knowledge distillation method based on curriculum learning (KDCL), where valuable representations learned from the easy curriculum are progressively transferred to the hard curriculum with minor loss, striking a trade-off between power efficiency and high performance. We evaluate our method on three benchmark datasets: the Spiking Heidelberg Dataset (SHD), the Spiking Speech Commands (SSC), and the Google Speech Commands (GSC) V2. Our experimental results demonstrate that SpikeSCR outperforms current state-of-the-art (SOTA) methods across these three datasets with the same time steps. Furthermore, by executing KDCL, we reduce the number of time steps by 60% and decrease energy consumption by 54.8% while maintaining comparable performance to recent SOTA results. Therefore, this work offers valuable insights for tackling temporal processing challenges with long time sequences in edge neuromorphic computing systems.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)の本質的なダイナミクスとイベント駆動特性は、組み込み時間列を時間ステップとして自然に活用することにより、時間情報の処理に優れる。
近年, 音声認識におけるSNNの有効性を実証し, 長時間の連続処理に大規模ステップを応用して高い性能を実現している。
しかし、大きな時間のステップは、エッジコンピューティングアプリケーションに対するデプロイメントの負担を増大させる。
したがって、エッジデバイスにおける時間パターンを検出する際には、高い性能と低エネルギー消費のバランスをとることが重要である。
私たちのソリューションは2つの重要なコンポーネントから構成されます。
1)。
本稿では,効率的な表現学習のためのグローバルなハイブリッド構造を特徴とする,スパイク駆動の高性能フレームワークSpikeSCRを提案する。
2)。
エネルギー消費の低減を図るため,カリキュラム学習(KDCL)に基づく効果的な知識蒸留手法を提案する。
提案手法は,Spike Heidelberg Dataset (SHD), Spiking Speech Commands (SSC), Google Speech Commands (GSC) V2の3つのベンチマークデータセットで評価する。
実験の結果,SpikeSCRはこれらの3つのデータセットに対して,現在のSOTA(State-of-the-art)メソッドを同じ時間ステップで上回っていることがわかった。
さらに、KDCLの実行により、最近のSOTA結果に匹敵する性能を維持しつつ、時間ステップを60%削減し、エネルギー消費を54.8%削減する。
したがって、この研究は、エッジニューロモルフィックコンピューティングシステムにおいて、長時間のシーケンスで時間的処理課題に対処するための貴重な洞察を提供する。
関連論文リスト
- TSkips: Efficiency Through Explicit Temporal Delay Connections in Spiking Neural Networks [8.13696328386179]
本稿では、時間的遅延を明示する前向きおよび後向きの接続を含むスパイキングニューラルネットワークを増強するTSkipsを提案する。
これらの接続は、長期的アーキテクチャをキャプチャし、長いシーケンスのスパイクフローを改善する。
4つのイベントベースデータセットにアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-11-22T18:58:18Z) - Efficient Spatio-Temporal Signal Recognition on Edge Devices Using PointLCA-Net [0.45609532372046985]
本稿では、ポイントネットの特徴抽出とインメモリコンピューティング能力と時間信号認識のためのニューロモルフィックシステムのエネルギー効率を組み合わせたアプローチを提案する。
PointNetは、推定とトレーニングの両方において、同等のアプローチよりも高い精度とエネルギー負担を著しく低減します。
論文 参考訳(メタデータ) (2024-11-21T20:48:40Z) - Towards Low-latency Event-based Visual Recognition with Hybrid Step-wise Distillation Spiking Neural Networks [50.32980443749865]
スパイキングニューラルネットワーク(SNN)は、低消費電力と高い生物性のために大きな注目を集めている。
現在のSNNは、ニューロモルフィックデータセットの正確性とレイテンシのバランスをとるのに苦労している。
ニューロモルフィックデータセットに適したステップワイド蒸留法(HSD)を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:52:34Z) - Accelerating Neural Network Training: A Brief Review [0.5825410941577593]
本研究では,ディープニューラルネットワーク(DNN)の学習過程を高速化するための革新的なアプローチについて検討する。
この研究は、グラディエント累積(GA)、自動混合精度(AMP)、ピンメモリ(PM)などの高度な手法を利用する。
論文 参考訳(メタデータ) (2023-12-15T18:43:45Z) - Continual Learning with Dynamic Sparse Training: Exploring Algorithms
for Effective Model Updates [13.983410740333788]
連続学習(英: Continual Learning, CL)とは、知的なシステムが、可能な限り計算オーバーヘッドの少ないデータストリームから、逐次的に知識を取得し、保持する能力である。
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、これらのスパースネットワークを見つけ、タスクごとに分離する方法である。
本論文は,CLパラダイムの下で異なるDST成分の効果を検証した最初の実証的研究である。
論文 参考訳(メタデータ) (2023-08-28T18:31:09Z) - S-TLLR: STDP-inspired Temporal Local Learning Rule for Spiking Neural Networks [7.573297026523597]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当なモデルであり、エッジにエネルギー効率の良いインテリジェンスをデプロイするための候補として特定されている。
本稿では,S-TLLRを提案する。S-TLLRはスパイク・タイミング依存塑性(STDP)機構にインスパイアされた新しい3要素時間的局所学習法である。
S-TLLRは、メモリと時間の複雑さが低く、時間ステップの数に依存しないように設計されており、低消費電力エッジデバイス上でのオンライン学習に適している。
論文 参考訳(メタデータ) (2023-06-27T05:44:56Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。