論文の概要: Comprehensive Evaluation of CNN-Based Audio Tagging Models on Resource-Constrained Devices
- arxiv url: http://arxiv.org/abs/2509.14049v2
- Date: Fri, 19 Sep 2025 10:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 12:06:46.40627
- Title: Comprehensive Evaluation of CNN-Based Audio Tagging Models on Resource-Constrained Devices
- Title(参考訳): 資源制約デバイスにおけるCNNに基づく音声タグモデルの包括的評価
- Authors: Jordi Grau-Haro, Ruben Ribes-Serrano, Javier Naranjo-Alcazar, Marta Garcia-Ballesteros, Pedro Zuccarello,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、オーディオタグ付けタスクにおいて例外的な性能を示した。
Raspberry Piのようなリソース制約のあるデバイスにこれらのモデルをデプロイすることは、計算効率と熱管理に関連する課題を引き起こす。
- 参考スコア(独自算出の注目度): 0.22369578015657954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) have demonstrated exceptional performance in audio tagging tasks. However, deploying these models on resource-constrained devices like the Raspberry Pi poses challenges related to computational efficiency and thermal management. In this paper, a comprehensive evaluation of multiple convolutional neural network (CNN) architectures for audio tagging on the Raspberry Pi is conducted, encompassing all 1D and 2D models from the Pretrained Audio Neural Networks (PANNs) framework, a ConvNeXt-based model adapted for audio classification, as well as MobileNetV3 architectures. In addition, two PANNs-derived networks, CNN9 and CNN13, recently proposed, are also evaluated. To enhance deployment efficiency and portability across diverse hardware platforms, all models are converted to the Open Neural Network Exchange (ONNX) format. Unlike previous works that focus on a single model, our analysis encompasses a broader range of architectures and involves continuous 24-hour inference sessions to assess performance stability. Our experiments reveal that, with appropriate model selection and optimization, it is possible to maintain consistent inference latency and manage thermal behavior effectively over extended periods. These findings provide valuable insights for deploying audio tagging models in real-world edge computing scenarios.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、オーディオタグ付けタスクにおいて例外的な性能を示した。
しかし、Raspberry Piのようなリソースに制約のあるデバイスにこれらのモデルをデプロイすると、計算効率と熱管理に関する課題が生じる。
本稿では,Raspberry Pi上の音声タグ付けのためのマルチ畳み込みニューラルネットワーク(CNN)アーキテクチャを包括的に評価し,事前学習型音声ニューラルネットワーク(PANN)フレームワークの1Dモデルと2Dモデル,音声分類に適応したConvNeXtベースのモデル,MobileNetV3アーキテクチャを網羅した。
さらに,最近提案された2つのPANNネットワークであるCNN9とCNN13も評価した。
多様なハードウェアプラットフォーム間のデプロイメント効率とポータビリティを向上させるため、すべてのモデルはOpen Neural Network Exchange (ONNX)フォーマットに変換される。
単一のモデルにフォーカスする以前の研究とは異なり、我々の分析は幅広いアーキテクチャを含み、パフォーマンスの安定性を評価するために24時間の推論セッションを継続する。
実験の結果,適切なモデル選択と最適化を行うことで,一貫した推論遅延を維持でき,熱的挙動を長期にわたって効果的に管理できることがわかった。
これらの発見は、実世界のエッジコンピューティングシナリオにオーディオタグモデルをデプロイするための貴重な洞察を提供する。
関連論文リスト
- Exploring Neural Network Pruning with Screening Methods [3.443622476405787]
現代のディープラーニングモデルは数千万のパラメータを持ち、推論プロセスはリソース集約化されている。
本稿では,非必須パラメータを除去するネットワーク・プルーニング・フレームワークの提案と評価を行う。
提案するフレームワークは,従来のネットワークと比較して,競争力のあるリーンネットワークを生成する。
論文 参考訳(メタデータ) (2025-02-11T02:31:04Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - JMSNAS: Joint Model Split and Neural Architecture Search for Learning
over Mobile Edge Networks [23.230079759174902]
モバイルエッジネットワーク上でのDNNモデルの自動生成とデプロイのために,ジョイントモデル分割とニューラルアーキテクチャサーチ(JMSNAS)フレームワークを提案する。
計算資源制約と通信資源制約の両方を考慮すると、計算グラフ探索問題を定式化する。
実験により,最先端の分割機械学習設計手法よりも提案手法が優れていることを確認した。
論文 参考訳(メタデータ) (2021-11-16T03:10:23Z) - Time-Frequency Localization Using Deep Convolutional Maxout Neural
Network in Persian Speech Recognition [0.0]
一部の哺乳類の聴覚ニューロン系における時間周波数の柔軟性は、認識性能を向上させる。
本稿では,ASR音響モデルにおける音声信号情報の時間的局所化のためのCNNに基づく構造を提案する。
TFCMNNモデルの平均認識スコアは、従来のモデルの平均よりも約1.6%高い。
論文 参考訳(メタデータ) (2021-08-09T05:46:58Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Inferring Convolutional Neural Networks' accuracies from their
architectural characterizations [0.0]
CNNのアーキテクチャと性能の関係について検討する。
本稿では,2つのコンピュータビジョンに基づく物理問題において,その特性がネットワークの性能を予測できることを示す。
我々は機械学習モデルを用いて、トレーニング前にネットワークが一定のしきい値精度よりも優れた性能を発揮できるかどうかを予測する。
論文 参考訳(メタデータ) (2020-01-07T16:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。