論文の概要: LEAN: Light and Efficient Audio Classification Network
- arxiv url: http://arxiv.org/abs/2305.12712v1
- Date: Mon, 22 May 2023 04:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:29:01.834013
- Title: LEAN: Light and Efficient Audio Classification Network
- Title(参考訳): LEAN: 軽量で効率的なオーディオ分類ネットワーク
- Authors: Shwetank Choudhary, CR Karthik, Punuru Sri Lakshmi and Sumit Kumar
- Abstract要約: 音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
- 参考スコア(独自算出の注目度): 1.5070398746522742
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Over the past few years, audio classification task on large-scale dataset
such as AudioSet has been an important research area. Several deeper
Convolution-based Neural networks have shown compelling performance notably
Vggish, YAMNet, and Pretrained Audio Neural Network (PANN). These models are
available as pretrained architecture for transfer learning as well as specific
audio task adoption. In this paper, we propose a lightweight on-device deep
learning-based model for audio classification, LEAN. LEAN consists of a raw
waveform-based temporal feature extractor called as Wave Encoder and
logmel-based Pretrained YAMNet. We show that using a combination of trainable
wave encoder, Pretrained YAMNet along with cross attention-based temporal
realignment, results in competitive performance on downstream audio
classification tasks with lesser memory footprints and hence making it suitable
for resource constraints devices such as mobile, edge devices, etc . Our
proposed system achieves on-device mean average precision(mAP) of .445 with a
memory footprint of a mere 4.5MB on the FSD50K dataset which is an improvement
of 22% over baseline on-device mAP on same dataset.
- Abstract(参考訳): 過去数年間、audiosetのような大規模データセットのオーディオ分類タスクは重要な研究分野となっている。
より深い畳み込みベースのニューラルネットワークは、特にVggish、YAMNet、Pretrained Audio Neural Network (PANN)など、魅力的なパフォーマンスを示している。
これらのモデルは、特定のオーディオタスクの採用と同様に、転送学習のための事前訓練されたアーキテクチャとして利用できる。
本稿では,音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブエンコーダ(Wave Encoder)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetで構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetと、クロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントで下流オーディオ分類タスクの競合性能を実現し、モバイルやエッジデバイスなどのリソース制約装置に適合することを示す。
提案システムでは,FSD50Kデータセット上でのメモリフットプリントが 4.5MB である .445 のデバイス上での平均mAP (mAP) を実現し,同じデータセット上でのベースライン平均mAP よりも22%向上した。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - E-PANNs: Sound Recognition Using Efficient Pre-trained Audio Neural
Networks [20.931028377435034]
PANNsモデルの計算複雑性とメモリ要求の低減方法を示す。
E-PANNsモデルのコードはオープンソースライセンスでリリースされた。
論文 参考訳(メタデータ) (2023-05-30T00:08:55Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - DeepSpectrumLite: A Power-Efficient Transfer Learning Framework for
Embedded Speech and Audio Processing from Decentralised Data [0.0]
DeepSpectrumLiteは、オンデバイス音声と音声認識のためのオープンソースの軽量転送学習フレームワークです。
このフレームワークは、Mel-spectrogramプロットを生の音声信号からオンザフライで作成し、拡張する。
DenseNet121モデルがコンシューマグレードのMotorola moto e7+スマートフォンで使用される場合、パイプライン全体を242.0ミリ秒の推論ラグでリアルタイムに実行できる。
論文 参考訳(メタデータ) (2021-04-23T14:32:33Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。