論文の概要: Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems
- arxiv url: http://arxiv.org/abs/2509.00862v1
- Date: Sun, 31 Aug 2025 14:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.434063
- Title: Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems
- Title(参考訳): 組込みシステムのためのLogNNet貯留層計算を用いた音声コマンド認識
- Authors: Yuriy Izotov, Andrei Velichko,
- Abstract要約: 音声コマンド認識器は、エネルギーベースの音声活動検出(VAD)、最適化されたMel-Frequency Cepstral Coefficients(MFCC)パイプライン、およびLogNNet貯水池計算分類器を組み合わせた。
Arduino Nano 33 IoT(ARM Cor-tex-M0+, 48 MHz, 32 KB RAM)のハードウェア実装は、実際の実現可能性を検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a low-resource speech-command recognizer combining energy-based voice activity detection (VAD), an optimized Mel-Frequency Cepstral Coefficients (MFCC) pipeline, and the LogNNet reservoir-computing classifier. Using four commands from the Speech Commands da-taset downsampled to 8 kHz, we evaluate four MFCC aggregation schemes and find that adaptive binning (64-dimensional feature vector) offers the best accuracy-to-compactness trade-off. The LogNNet classifier with architecture 64:33:9:4 reaches 92.04% accuracy under speaker-independent evaluation, while requiring significantly fewer parameters than conventional deep learn-ing models. Hardware implementation on Arduino Nano 33 IoT (ARM Cor-tex-M0+, 48 MHz, 32 KB RAM) validates the practical feasibility, achieving ~90% real-time recognition accuracy while consuming only 18 KB RAM (55% utilization). The complete pipeline (VAD -> MFCC -> LogNNet) thus enables reliable on-device speech-command recognition under strict memory and compute limits, making it suitable for battery-powered IoT nodes, wire-less sensor networks, and hands-free control interfaces.
- Abstract(参考訳): 本稿では,エネルギーベース音声活動検出(VAD),Mel-Frequency Cepstral Coefficients(MFCC)パイプライン,LogNNet貯水池計算分類器を組み合わせた低リソース音声コマンド認識器を提案する。
8kHzにダウンサンプリングされた音声コマンドの4つのコマンドを用いて、4つのMFCCアグリゲーションスキームを評価し、アダプティブ・ビンニング(64次元特徴ベクトル)が最適な精度と互換性のトレードオフを提供することを示した。
アーキテクチャ64:33:9:4のLogNNet分類器は、話者に依存しない評価では92.04%の精度に達し、従来のディープラーニングモデルに比べてパラメータは大幅に少ない。
Arduino Nano 33 IoT(ARM Cor-tex-M0+, 48 MHz, 32 KB RAM)のハードウェア実装は、実際の実現可能性を評価し、18 KB RAM(55%)しか消費せず、90%のリアルタイム認識精度を実現している。
完全なパイプライン(VAD -> MFCC -> LogNNet)により、厳格なメモリと計算限界下でのデバイス上での音声コマンド認識の信頼性が実現され、バッテリ駆動のIoTノード、ワイヤレスセンサーネットワーク、ハンズフリーコントロールインターフェースに適合する。
関連論文リスト
- Energy-Efficient Deep Learning for Traffic Classification on Microcontrollers [1.3124513975412255]
本稿では,資源限定マイクロコントローラ上でのエネルギー効率の高いトラフィック分類のための実用的なディープラーニング(DL)手法を提案する。
ISCX VPN-Non-VPNデータセット上で96.59%の精度を実現するハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)により最適化された軽量な1D-CNNを開発する。
2つのマイクロコントローラにおける実世界の推論性能を評価する。
論文 参考訳(メタデータ) (2025-06-12T16:10:22Z) - Implementing Keyword Spotting on the MCUX947 Microcontroller with Integrated NPU [0.0]
本稿では,NPUを用いたMCXN947マイクロコントローラ上に実装されたキーワードスポッティング(KWS)システムを提案する。
このシステムは、MFCCの機能抽出とCNNを組み合わせて、Quantization Aware Trainingを使って最適化し、最小限の精度でモデルサイズを削減する。
実験結果は、CPUのみの実行と比較して、NPUを利用する場合の推測時間の59倍の高速化を示す。
論文 参考訳(メタデータ) (2025-06-10T15:38:21Z) - FlowDec: A flow-based full-band general audio codec with high perceptual quality [90.05968801459524]
FlowDecは、48kHzでサンプリングされた一般的なオーディオのためのニューラルフルバンドオーディオコーデックである。
音声から一般的な音声へ一般化し、24kbit/sから4kbit/sまで移行する。
論文 参考訳(メタデータ) (2025-03-03T12:49:09Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - AnalogNets: ML-HW Co-Design of Noise-robust TinyML Models and Always-On
Analog Compute-in-Memory Accelerator [50.31646817567764]
本稿では,キーワードスポッティング (KWS) と視覚覚醒語 (VWW) を常用するTinyMLモデルについて述べる。
アナログ非イデオロギーに面した精度を維持するため、包括的学習手法を詳述する。
また、プログラム可能な最小領域位相変化メモリ(PCM)アナログCiMアクセラレータであるAON-CiMについて述べる。
論文 参考訳(メタデータ) (2021-11-10T10:24:46Z) - Sound Event Detection with Binary Neural Networks on Tightly
Power-Constrained IoT Devices [20.349809458335532]
サウンドイベント検出(SED)は、消費者およびスマートシティアプリケーションのホットトピックです。
Deep Neural Networksに基づく既存のアプローチは非常に効果的ですが、メモリ、電力、スループットの面で非常に要求が高いです。
本稿では,高エネルギー効率なRISC-V(8+1)コアGAP8マイクロコントローラと,極端量子化と小プリントバイナリニューラルネットワーク(BNN)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2021-01-12T12:38:23Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z) - Near-chip Dynamic Vision Filtering for Low-Bandwidth Pedestrian
Detection [99.94079901071163]
本稿では、ダイナミックビジョンセンサ(DVS)を用いた歩行者検出のための新しいエンドツーエンドシステムを提案する。
我々は、複数のセンサがローカル処理ユニットにデータを送信し、検出アルゴリズムを実行するアプリケーションをターゲットにしている。
我々の検出器は450ミリ秒毎に検出を行うことができ、総合的なテストF1スコアは83%である。
論文 参考訳(メタデータ) (2020-04-03T17:36:26Z) - Compact recurrent neural networks for acoustic event detection on
low-energy low-complexity platforms [10.04812789957562]
本稿では,IoT 用リソース制約組込みプラットフォームにおける深層学習手法を最適化することにより,エッジでの音声イベント検出の適用について述べる。
2段階の学生-教師のアプローチは、現在のマイクロコントローラに適合する音のイベント検出のための最先端のニューラルネットワークを実現するために提案される。
組込み実装はUrbansound8kの認識精度を68%向上させることができる。
論文 参考訳(メタデータ) (2020-01-29T14:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。