論文の概要: Towards efficient keyword spotting using spike-based time difference encoders
- arxiv url: http://arxiv.org/abs/2503.15402v1
- Date: Wed, 19 Mar 2025 16:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:16.641440
- Title: Towards efficient keyword spotting using spike-based time difference encoders
- Title(参考訳): スパイクに基づく時間差エンコーダを用いた効率的なキーワードスポッティング
- Authors: Alejandro Pequeño-Zurro, Lyes Khacef, Stefano Panzeri, Elisabetta Chicca,
- Abstract要約: このニューロンモデルは、周波数とスパイクカウントの時間差を符号化し、ニューロモルフィックプロセッサによる効率的なキーワードスポッティングを行う。
我々は,音声桁のTIdigitsデータセットを用いて,時間的スパイクス信号にフォルマント分解とレートベース符号化を行う。
以上の結果から,TDEはパターンのスケーラブルなイベント駆動処理のための有望なニューロンモデルであることが示唆された。
- 参考スコア(独自算出の注目度): 44.258559628635766
- License:
- Abstract: Keyword spotting in edge devices is becoming increasingly important as voice-activated assistants are widely used. However, its deployment is often limited by the extreme low-power constraints of the target embedded systems. Here, we explore the Temporal Difference Encoder (TDE) performance in keyword spotting. This recent neuron model encodes the time difference in instantaneous frequency and spike count to perform efficient keyword spotting with neuromorphic processors. We use the TIdigits dataset of spoken digits with a formant decomposition and rate-based encoding into spikes. We compare three Spiking Neural Networks (SNNs) architectures to learn and classify spatio-temporal signals. The proposed SNN architectures are made of three layers with variation in its hidden layer composed of either (1) feedforward TDE, (2) feedforward Current-Based Leaky Integrate-and-Fire (CuBa-LIF), or (3) recurrent CuBa-LIF neurons. We first show that the spike trains of the frequency-converted spoken digits have a large amount of information in the temporal domain, reinforcing the importance of better exploiting temporal encoding for such a task. We then train the three SNNs with the same number of synaptic weights to quantify and compare their performance based on the accuracy and synaptic operations. The resulting accuracy of the feedforward TDE network (89%) is higher than the feedforward CuBa-LIF network (71%) and close to the recurrent CuBa-LIF network (91%). However, the feedforward TDE-based network performs 92% fewer synaptic operations than the recurrent CuBa-LIF network with the same amount of synapses. In addition, the results of the TDE network are highly interpretable and correlated with the frequency and timescale features of the spoken keywords in the dataset. Our findings suggest that the TDE is a promising neuron model for scalable event-driven processing of spatio-temporal patterns.
- Abstract(参考訳): エッジデバイスにおけるキーワードスポッティングは、音声アクティベートアシスタントが広く使われているため、ますます重要になっている。
しかし、その配置は、しばしばターゲットの組込みシステムの極端に低電力の制約によって制限される。
本稿では,キーワードスポッティングにおける時間差エンコーダ(TDE)の性能について検討する。
最近のニューロンモデルでは、瞬時周波数とスパイクカウントの時間差を符号化し、ニューロモルフィックプロセッサによる効率的なキーワードスポッティングを行う。
音声桁の TIdigits データセットをフォルマント分解およびレートベース符号化によりスパイクに符号化する。
3つのスパイキングニューラルネットワーク(SNN)アーキテクチャを比較し,時空間信号の学習と分類を行う。
提案したSNNアーキテクチャは,(1)フィードフォワードTDE,(2)フィードフォワード電流ベースリーキー積分(CuBa-LIF)または(3)繰り返しCuBa-LIFニューロンからなる3つの層からなる。
まず、周波数変換された音声桁のスパイク列車が時間領域に大量の情報を持っていることを示す。
次に、同じ数のシナプス重みを持つ3つのSNNを訓練し、精度とシナプス演算に基づいてそれらの性能を定量化し比較する。
フィードフォワードTDEネットワークの精度(89%)はフィードフォワードCuBa-LIFネットワーク(71%)よりも高く、繰り返しCuBa-LIFネットワーク(91%)に近い。
しかし、フィードフォワードTDEベースのネットワークは、同じ量のシナプスを持つCuBa-LIFネットワークよりも92%少ないシナプス演算を実行する。
さらに、TDEネットワークの結果は、データセット内の音声キーワードの頻度と時間スケールの特徴と高く解釈され、相関している。
以上の結果から,TDEは時空間パターンのスケーラブルなイベント駆動処理のための有望なニューロンモデルであることが示唆された。
関連論文リスト
- TDE-3: An improved prior for optical flow computation in spiking neural
networks [13.794125775056424]
運動検出は、ロボットシステムが環境を知覚し、ナビゲートするのに必要となる主要なタスクである。
バイオインスパイアされたニューロモーフィック・タイムディファクション(TDE-2)は、イベントベースのセンサーとプロセッサをスパイクニューラルネットワークと組み合わせ、リアルタイムかつエネルギー効率の良いモーション検出を提供する。
本稿では, テクスチャ環境下でのTDE-3の方向選択性を高めるために, さらなる抑制入力を付加した3点TDE(TDE-3)を提案する。
論文 参考訳(メタデータ) (2024-02-18T17:42:19Z) - Learning Delays in Spiking Neural Networks using Dilated Convolutions
with Learnable Spacings [1.534667887016089]
スパイキングニューラルネットワーク(SNN)は、電力効率の高い情報処理システムを構築する上で有望な研究方向である。
SNNでは、1つのスパイクが1つのニューロンから別のニューロンに移動するのに必要な時間を指す。
塑性遅延がSNNの表現性を大幅に向上させることが理論的に示されている。
本稿では,この問題をバックプロパゲーションを用いたディープフィードフォワードSNNで処理する離散時間アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-30T14:01:53Z) - Adaptive Axonal Delays in feedforward spiking neural networks for
accurate spoken word recognition [4.018601183900039]
スパイキングニューラルネットワーク(SNN)は、正確で効率的な自動音声認識システムを構築するための有望な研究手段である。
近年のオーディオ・ツー・スパイク符号化とトレーニングアルゴリズムの進歩により、SNNを実践的なタスクに適用することが可能になった。
本研究は,複雑な時間構造をもつタスクに対して,軸索遅延を訓練する可能性を示す。
論文 参考訳(メタデータ) (2023-02-16T22:19:04Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Spike-inspired Rank Coding for Fast and Accurate Recurrent Neural
Networks [5.986408771459261]
生物学的スパイクニューラルネットワーク(SNN)は、その出力の情報を時間的にエンコードすることができるが、人工ニューラルネットワーク(ANN)は従来はそうではない。
ここでは、SNNにインスパイアされたランク符号化(RC)のような時間符号化が、LSTMなどの従来のANNにも適用可能であることを示す。
RCトレーニングは推論中の時間と監視を著しく低減し、精度は最小限に抑えられる。
逐次分類の2つのおもちゃ問題と、最初の入力時間ステップ後にRCモデルが99.19%の精度を達成できる時間符号化MNISTデータセットにおいて、これらを実証する。
論文 参考訳(メタデータ) (2021-10-06T15:51:38Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Frequency Gating: Improved Convolutional Neural Networks for Speech
Enhancement in the Time-Frequency Domain [37.722450363816144]
本稿では、CNNのカーネルの乗算重みを計算するために、周波数ゲーティングと呼ばれる手法を提案する。
スキップ接続を用いたオートエンコーダニューラルネットワークの実験では、局所的および周波数的にゲーティングの両方がベースラインを上回っている。
拡張短時間客観的インテリジェンススコア(ESTOI)に基づく損失関数を導入し、標準平均二乗誤差(MSE)損失関数より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-08T22:04:00Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。