論文の概要: Audio Tagging on an Embedded Hardware Platform
- arxiv url: http://arxiv.org/abs/2306.09106v1
- Date: Thu, 15 Jun 2023 13:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 14:43:54.095063
- Title: Audio Tagging on an Embedded Hardware Platform
- Title(参考訳): 組み込みハードウェアプラットフォームにおけるオーディオタグ付け
- Authors: Gabriel Bibbo, Arshdeep Singh, Mark D. Plumbley
- Abstract要約: Raspberry Piなどのハードウェアにデプロイした場合,大規模な事前学習型オーディオニューラルネットワークの性能がどう変化するかを分析する。
実験の結果,連続したCPU使用量によって温度が上昇し,自動減速機構が起動できることが判明した。
マイクの品質、特にGoogle AIY Voice Kitのような安価なデバイスや音声信号のボリュームは、システムのパフォーマンスに影響を与えます。
- 参考スコア(独自算出の注目度): 20.028643659869573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural networks (CNNs) have exhibited state-of-the-art
performance in various audio classification tasks. However, their real-time
deployment remains a challenge on resource-constrained devices like embedded
systems. In this paper, we analyze how the performance of large-scale
pretrained audio neural networks designed for audio pattern recognition changes
when deployed on a hardware such as Raspberry Pi. We empirically study the role
of CPU temperature, microphone quality and audio signal volume on performance.
Our experiments reveal that the continuous CPU usage results in an increased
temperature that can trigger an automated slowdown mechanism in the Raspberry
Pi, impacting inference latency. The quality of a microphone, specifically with
affordable devices like the Google AIY Voice Kit, and audio signal volume, all
affect the system performance. In the course of our investigation, we encounter
substantial complications linked to library compatibility and the unique
processor architecture requirements of the Raspberry Pi, making the process
less straightforward compared to conventional computers (PCs). Our
observations, while presenting challenges, pave the way for future researchers
to develop more compact machine learning models, design heat-dissipative
hardware, and select appropriate microphones when AI models are deployed for
real-time applications on edge devices. All related assets and an interactive
demo can be found on GitHub
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、様々な音声分類タスクで最先端のパフォーマンスを示している。
しかし、リアルタイムデプロイメントは、組み込みシステムのようなリソース制約のあるデバイスでは依然として課題である。
本稿では,raspberry piなどのハードウェア上での音声パターン認識のために設計された大規模事前学習型音声ニューラルネットワークの性能変化について解析する。
我々は,CPU温度,マイクロホン品質,音声信号量が性能に与える影響を実証研究した。
実験の結果,連続CPU使用は温度が上昇し,Raspberry Piの自動減速機構が起動し,推論遅延に影響を及ぼすことがわかった。
マイクの品質、特にGoogle AIY Voice Kitのような安価なデバイスや音声信号のボリュームは、システムのパフォーマンスに影響を与えます。
調査の過程では,ライブラリの互換性やRaspberry Piのユニークなプロセッサアーキテクチャ要件に関連する重大な問題に遭遇し,従来のコンピュータ(PC)に比べてプロセスの単純さが低下した。
我々の観察は、課題を提示しながら、将来の研究者がよりコンパクトな機械学習モデルを開発し、熱散逸性ハードウェアを設計し、AIモデルがエッジデバイス上のリアルタイムアプリケーションにデプロイされたときに適切なマイクを選択するための道を開く。
関連するすべての資産とインタラクティブなデモがgithubで公開されている
関連論文リスト
- Neurobench: DCASE 2020 Acoustic Scene Classification benchmark on XyloAudio 2 [0.06752396542927405]
XyloAudioは超低消費電力オーディオ推論チップのシリーズだ。
リアルタイムエネルギー制約シナリオにおける音声の内・近マイクロホン解析のために設計されている。
論文 参考訳(メタデータ) (2024-10-31T09:48:12Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - DeepSpectrumLite: A Power-Efficient Transfer Learning Framework for
Embedded Speech and Audio Processing from Decentralised Data [0.0]
DeepSpectrumLiteは、オンデバイス音声と音声認識のためのオープンソースの軽量転送学習フレームワークです。
このフレームワークは、Mel-spectrogramプロットを生の音声信号からオンザフライで作成し、拡張する。
DenseNet121モデルがコンシューマグレードのMotorola moto e7+スマートフォンで使用される場合、パイプライン全体を242.0ミリ秒の推論ラグでリアルタイムに実行できる。
論文 参考訳(メタデータ) (2021-04-23T14:32:33Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Real-time Timbre Transfer and Sound Synthesis using DDSP [1.7942265700058984]
プラグインとして仮想シンセサイザーに埋め込まれたMagentaPライブラリのリアルタイム実装を紹介します。
実楽器の学習表現から任意の音響入力への音色伝達とMIDIによるこれらのモデル制御に着目した。
ニューラルネットワークによって推定されるパラメータの処理と操作に使用できる直感的な高レベル制御のためのGUIを開発した。
論文 参考訳(メタデータ) (2021-03-12T11:49:51Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。