論文の概要: IML-Spikeformer: Input-aware Multi-Level Spiking Transformer for Speech Processing
- arxiv url: http://arxiv.org/abs/2507.07396v1
- Date: Thu, 10 Jul 2025 03:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.260648
- Title: IML-Spikeformer: Input-aware Multi-Level Spiking Transformer for Speech Processing
- Title(参考訳): IMLスパイクフォーマ:音声処理のための入力対応マルチレベルスパイクトランス
- Authors: Zeyang Song, Shimin Zhang, Yuhong Chou, Jibin Wu, Haizhou Li,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワーク(ANN)に代わるエネルギー効率の良い代替手段を提供する
IML-Spikeformerは大規模音声処理用に設計されたスパイクトランスフォーマーアーキテクチャである。
IML-SpikeformerはAiShell-1で6.0%、Librispeech-960で3.4%という単語誤り率を実現している。
- 参考スコア(独自算出の注目度): 37.95536541492917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking Neural Networks (SNNs), inspired by biological neural mechanisms, represent a promising neuromorphic computing paradigm that offers energy-efficient alternatives to traditional Artificial Neural Networks (ANNs). Despite proven effectiveness, SNN architectures have struggled to achieve competitive performance on large-scale speech processing task. Two key challenges hinder progress: (1) the high computational overhead during training caused by multi-timestep spike firing, and (2) the absence of large-scale SNN architectures tailored to speech processing tasks. To overcome the issues, we introduce Input-aware Multi-Level Spikeformer, i.e. IML-Spikeformer, a spiking Transformer architecture specifically designed for large-scale speech processing. Central to our design is the Input-aware Multi-Level Spike (IMLS) mechanism, which simulate multi-timestep spike firing within a single timestep using an adaptive, input-aware thresholding scheme. IML-Spikeformer further integrates a Reparameterized Spiking Self-Attention (RepSSA) module with a Hierarchical Decay Mask (HDM), forming the HD-RepSSA module. This module enhances the precision of attention maps and enables modeling of multi-scale temporal dependencies in speech signals. Experiments demonstrate that IML-Spikeformer achieves word error rates of 6.0\% on AiShell-1 and 3.4\% on Librispeech-960, comparable to conventional ANN transformers while reducing theoretical inference energy consumption by 4.64$\times$ and 4.32$\times$ respectively. IML-Spikeformer marks an advance of scalable SNN architectures for large-scale speech processing in both task performance and energy efficiency.
- Abstract(参考訳): 生体神経機構にインスパイアされたスパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワーク(ANN)に代わるエネルギー効率の良い代替手段を提供する、有望なニューロモルフィックコンピューティングパラダイムである。
有効性は証明されているが、SNNアーキテクチャは大規模音声処理タスクにおいて競合する性能を達成するのに苦労している。
1)マルチステップスパイク発火による訓練における高い計算オーバーヘッド,2)音声処理タスクに適した大規模SNNアーキテクチャの欠如,の2つの課題が進展を妨げる。
この問題を解決するために,大規模音声処理に特化して設計されたインプット対応マルチレベルスパイクフォーマ,すなわちIML-Spikeformerを導入する。
我々の設計の中心は、入力対応マルチレベルスパイク(IMLS)機構であり、これは、適応的な入力対応しきい値設定方式を用いて、単一のタイムステップ内でのマルチステップスパイク発火をシミュレートする。
IML-Spikeformerはさらに、Reparameterized Spiking Self-Attention (RepSSA)モジュールと階層型Decay Mask (HDM)モジュールを統合し、HD-RepSSAモジュールを形成する。
このモジュールはアテンションマップの精度を高め、音声信号のマルチスケール時間依存性のモデリングを可能にする。
IML-Spikeformer は AiShell-1 では6.0\%、Librispeech-960 では3.4\%、従来の ANN 変圧器では4.64$\times$ と4.32$\times$ のワード誤り率を実現している。
IML-Spikeformerはタスク性能とエネルギー効率の両方において、大規模音声処理のためのスケーラブルなSNNアーキテクチャの進歩を示す。
関連論文リスト
- Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking [43.275370104552344]
人間の脳は、同様のパラメータを持つ大きな言語モデルよりもはるかにエネルギー効率が高い。
本稿では,最初のスパイク型大言語モデルであるSpikeLLMを提案する。
SpikeLLMは11.01%のWikiText2の複雑さを低減し、一般的なシーン推論の2.55%の精度を改善する。
論文 参考訳(メタデータ) (2024-07-05T08:37:17Z) - Language Modeling on a SpiNNaker 2 Neuromorphic Chip [2.760675104404914]
ニューロモルフィックデバイス上のイベントベースのネットワークは、推論のエネルギー消費を大幅に削減する潜在的方法を提供する。
ニューロモルフィックデバイス上での言語モデルの初の実装を実演する。
論文 参考訳(メタデータ) (2023-12-14T16:16:35Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。