論文の概要: TinyML for Speech Recognition
- arxiv url: http://arxiv.org/abs/2504.16213v1
- Date: Tue, 22 Apr 2025 19:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.900875
- Title: TinyML for Speech Recognition
- Title(参考訳): 音声認識のためのTinyML
- Authors: Andrew Barovic, Armin Moin,
- Abstract要約: 我々は,IoTエッジデバイス上で音声認識を行うために,量子化された1次元畳み込みニューラルネットワークモデルを訓練し,展開する。
これは、スマートホームや、高齢者や障害者の生活を支援する環境支援など、さまざまなモノのインターネット(IoT)アプリケーションで有用である。
- 参考スコア(独自算出の注目度): 3.9134031118910264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We train and deploy a quantized 1D convolutional neural network model to conduct speech recognition on a highly resource-constrained IoT edge device. This can be useful in various Internet of Things (IoT) applications, such as smart homes and ambient assisted living for the elderly and people with disabilities, just to name a few examples. In this paper, we first create a new dataset with over one hour of audio data that enables our research and will be useful to future studies in this field. Second, we utilize the technologies provided by Edge Impulse to enhance our model's performance and achieve a high Accuracy of up to 97% on our dataset. For the validation, we implement our prototype using the Arduino Nano 33 BLE Sense microcontroller board. This microcontroller board is specifically designed for IoT and AI applications, making it an ideal choice for our target use case scenarios. While most existing research focuses on a limited set of keywords, our model can process 23 different keywords, enabling complex commands.
- Abstract(参考訳): 我々は,高リソース制約のIoTエッジデバイス上で音声認識を行うために,量子化された1次元畳み込みニューラルネットワークモデルを訓練し,展開する。
これは、スマートホームや、高齢者や障害者の生活を支援する環境支援など、さまざまなモノのインターネット(IoT)アプリケーションで有用である。
本稿では,まず1時間以上の音声データを用いた新しいデータセットを作成し,今後の研究に役立てる。
第2に、Edge Impulseが提供する技術を使用して、モデルのパフォーマンスを高め、データセット上で最大97%の高精度を実現しています。
この検証のために,Arduino Nano 33 BLE Sense マイクロコントローラボードを用いてプロトタイプを実装した。
このマイクロコントローラボードは、IoTおよびAIアプリケーション用に特別に設計されており、ターゲットのユースケースシナリオに最適な選択肢です。
既存のほとんどの研究は限定的なキーワードに重点を置いているが、我々のモデルは23種類のキーワードを処理でき、複雑なコマンドを実行できる。
関連論文リスト
- Towards Speaker Identification with Minimal Dataset and Constrained Resources using 1D-Convolution Neural Network [0.0]
本稿では,最小限のデータセット上で話者識別を行うために設計された,軽量な1D-Convolutional Neural Network (1D-CNN)を提案する。
提案手法は97.87%の精度を達成し,バックグラウンドノイズや限られたトレーニングサンプルの処理にデータ拡張技術を活用する。
論文 参考訳(メタデータ) (2024-11-22T17:18:08Z) - Leveraging Foundation Models for Zero-Shot IoT Sensing [5.319176383069102]
ディープラーニングモデルは、エッジIoT(Internet of Things)デバイスにますますデプロイされている。
ZSLは意味情報の助けを借りて、目に見えないクラスのデータを分類することを目的としている。
本研究では、ゼロショットIoTセンシングのためのFMテキストエンコーダによって生成されたセマンティック埋め込みと、IoTデータの埋め込みを一致させる。
論文 参考訳(メタデータ) (2024-07-29T11:16:48Z) - IoT-LM: Large Multisensory Language Models for the Internet of Things [70.74131118309967]
IoTエコシステムは、モーション、サーマル、ジオロケーション、イメージング、ディープ、センサー、オーディオといった、現実世界のモダリティの豊富なソースを提供する。
機械学習は、IoTデータを大規模に自動的に処理する豊富な機会を提供する。
IoTエコシステムに適した,オープンソースの大規模マルチセンサ言語モデルであるIoT-LMを紹介します。
論文 参考訳(メタデータ) (2024-07-13T08:20:37Z) - Realtime Person Identification via Gait Analysis [1.3260363717086592]
エッジAIデプロイメントとリアルタイム歩行認識に非常に適した4層を有する小型CNNモデルを提案する。
我々のモデルは96.7%の精度で5KBのRAMしか消費せず、起動時間は70msと125mWである。
論文 参考訳(メタデータ) (2024-04-02T18:15:06Z) - MultiIoT: Benchmarking Machine Learning for the Internet of Things [70.74131118309967]
次世代の機械学習システムは、物理的世界に対する知覚と相互作用に長けなければならない。
運動、熱、位置情報、深度、無線信号、ビデオ、オーディオからの知覚データは、物理環境の状態をモデル化するためにますます使われています。
既存の取り組みは、しばしば単一の感覚的モダリティまたは予測タスクに特化している。
本稿は、12のモダリティと8つの現実世界タスクから115万以上のサンプルを含む、これまでで最も拡張的で統一されたIoTベンチマークであるMultiIoTを提案する。
論文 参考訳(メタデータ) (2023-11-10T18:13:08Z) - LoRaWAN-enabled Smart Campus: The Dataset and a People Counter Use Case [9.835561936689357]
本稿では,LoRaWANに基づくSmart Campusデータセットの詳細について述べる。
LoRaWANは、何百ものIoTデバイスを提供する新興技術である。
論文 参考訳(メタデータ) (2023-04-26T08:14:56Z) - Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning [19.220263739291685]
音声感情認識(SER)は、ヒューマン・コンピュータ・インタラクション(HCI)において人気のある研究トピックである。
合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。
実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,モデル性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-26T18:38:42Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Quantization and Deployment of Deep Neural Networks on Microcontrollers [0.0]
この研究は、低消費電力32ビットマイクロコントローラへのディープニューラルネットワークの量子化と展開に焦点を当てている。
エンドツーエンドのディープニューラルネットワークトレーニング、量子化、デプロイメントのための新しいフレームワークが紹介されている。
単一精度32ビット浮動小数点と8ビットおよび16ビット整数上の固定点を用いた実行がサポートされている。
論文 参考訳(メタデータ) (2021-05-27T17:39:06Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - TapNet: The Design, Training, Implementation, and Applications of a
Multi-Task Learning CNN for Off-Screen Mobile Input [75.05709030478073]
本稿では,スマートフォンのタップを検出するマルチタスクネットワークであるTapNetの設計,トレーニング,実装,応用について述べる。
TapNetはデバイス間のデータから共同で学習し、タップ方向やタップ位置を含む複数のタップ特性を同時に認識することができる。
論文 参考訳(メタデータ) (2021-02-18T00:45:41Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。