論文の概要: E-PANNs: Sound Recognition Using Efficient Pre-trained Audio Neural
Networks
- arxiv url: http://arxiv.org/abs/2305.18665v1
- Date: Tue, 30 May 2023 00:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 18:56:56.569784
- Title: E-PANNs: Sound Recognition Using Efficient Pre-trained Audio Neural
Networks
- Title(参考訳): E-PANNs:高能率事前学習型ニューラルネットを用いた音声認識
- Authors: Arshdeep Singh, Haohe Liu, Mark D. Plumbley
- Abstract要約: PANNsモデルの計算複雑性とメモリ要求の低減方法を示す。
E-PANNsモデルのコードはオープンソースライセンスでリリースされた。
- 参考スコア(独自算出の注目度): 20.931028377435034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sounds carry an abundance of information about activities and events in our
everyday environment, such as traffic noise, road works, music, or people
talking. Recent machine learning methods, such as convolutional neural networks
(CNNs), have been shown to be able to automatically recognize sound activities,
a task known as audio tagging. One such method, pre-trained audio neural
networks (PANNs), provides a neural network which has been pre-trained on over
500 sound classes from the publicly available AudioSet dataset, and can be used
as a baseline or starting point for other tasks. However, the existing PANNs
model has a high computational complexity and large storage requirement. This
could limit the potential for deploying PANNs on resource-constrained devices,
such as on-the-edge sound sensors, and could lead to high energy consumption if
many such devices were deployed. In this paper, we reduce the computational
complexity and memory requirement of the PANNs model by taking a pruning
approach to eliminate redundant parameters from the PANNs model. The resulting
Efficient PANNs (E-PANNs) model, which requires 36\% less computations and 70\%
less memory, also slightly improves the sound recognition (audio tagging)
performance. The code for the E-PANNs model has been released under an open
source license.
- Abstract(参考訳): 音は、交通騒音、道路工事、音楽、話している人々など、日々の環境における活動や出来事に関する情報を大量に持っています。
畳み込みニューラルネットワーク(CNN)のような最近の機械学習手法では、音声タグ付けと呼ばれるタスクである音のアクティビティを自動的に認識できることが示されている。
そのような方法の1つ、PANN(Pre-trained Audio Neural Network)は、公開可能なAudioSetデータセットから500以上のサウンドクラスで事前トレーニングされたニューラルネットワークを提供し、他のタスクのベースラインまたは出発点として使用することができる。
しかし、既存のPANNsモデルは計算複雑性が高く、大きなストレージを必要とする。
これは、オンザエッジサウンドセンサーのようなリソース制約されたデバイスにパンを配置する可能性を制限し、そのようなデバイスが多数配置された場合、高いエネルギー消費につながる可能性がある。
本稿では,PANNsモデルから冗長パラメータを除去するために,Pruningアプローチを採用することにより,PANNsモデルの計算複雑性とメモリ要求を低減する。
結果として得られた効率の良いPANN(E-PANNs)モデルは、36 %の計算と70 %のメモリを必要とするが、音声認識(オーディオタグ付け)の性能もわずかに改善する。
E-PANNsモデルのコードはオープンソースライセンスでリリースされた。
関連論文リスト
- DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文 参考訳(メタデータ) (2024-06-08T12:58:13Z) - Exploring Green AI for Audio Deepfake Detection [21.17957700009653]
ディープニューラルネットワークを利用した最先端のオーディオディープフェイク検出器は、印象的な認識性能を示している。
ディープNLPモデルはCOtextsubscript2の約626klbのCOtextsubscript2を生成する。
そこで本研究では,標準CPUリソースを用いてシームレスにトレーニング可能な,オーディオディープフェイク検出のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T10:54:21Z) - sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - BayesSpeech: A Bayesian Transformer Network for Automatic Speech
Recognition [0.0]
近年のエンド・ツー・エンド・エンド・ディープ・ラーニング・モデルによる開発は, 音声認識タスクにおけるRNN(Recurrent Neural Networks)の現状よりも, ほぼ, あるいはそれに近い性能を示すことが示されている。
重みのばらつきの導入によって,LibriSpeech-960のトレーニング時間と最先端性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-16T16:19:04Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Neural Architecture Search for Energy Efficient Always-on Audio Models [1.3846912186423144]
我々は,ニューラルネットワーク検索(NAS)にいくつかの変更を加えて,現実的な状況における成功の可能性を改善する。
実際のハードウェアで検索のパフォーマンスをベンチマークするが、実際のハードウェアで何千ものテストを実行することは難しいため、ランダムなフォレストモデルを用いて、候補ネットワークのエネルギー使用量を概ね予測する。
その結果,AudioSetをベースとした音響イベント分類データセットを用いて,推定毎のエネルギーの桁違いが小さく,メモリフットプリントもはるかに小さくなった。
論文 参考訳(メタデータ) (2022-02-09T06:10:18Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。