論文の概要: Knowledge Distillation for Singing Voice Detection
- arxiv url: http://arxiv.org/abs/2011.04297v2
- Date: Thu, 19 Aug 2021 18:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 00:34:46.826470
- Title: Knowledge Distillation for Singing Voice Detection
- Title(参考訳): 歌声検出のための知識蒸留
- Authors: Soumava Paul, Gurunath Reddy M, K Sreenivasa Rao and Partha Pratim Das
- Abstract要約: 歌声検出(SVD)は音楽情報検索(MIR)研究の活発な領域である。
現在、CNNとRNNに基づく2つのディープニューラルネットワークベースの手法が、音声検出(VD)タスクの最適化機能を学ぶ文献に存在している。
本稿では,従来の知識蒸留技術とアンサンブルの知識蒸留技術の両方を用いて,この問題の解明に努めている。
- 参考スコア(独自算出の注目度): 13.142789604525644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Singing Voice Detection (SVD) has been an active area of research in music
information retrieval (MIR). Currently, two deep neural network-based methods,
one based on CNN and the other on RNN, exist in literature that learn optimized
features for the voice detection (VD) task and achieve state-of-the-art
performance on common datasets. Both these models have a huge number of
parameters (1.4M for CNN and 65.7K for RNN) and hence not suitable for
deployment on devices like smartphones or embedded sensors with limited
capacity in terms of memory and computation power. The most popular method to
address this issue is known as knowledge distillation in deep learning
literature (in addition to model compression) where a large pre-trained network
known as the teacher is used to train a smaller student network. Given the wide
applications of SVD in music information retrieval, to the best of our
knowledge, model compression for practical deployment has not yet been
explored. In this paper, efforts have been made to investigate this issue using
both conventional as well as ensemble knowledge distillation techniques.
- Abstract(参考訳): 歌声検出(SVD)は音楽情報検索(MIR)研究の活発な領域である。
現在、CNNとRNNに基づく2つのディープニューラルネットワークベースの手法が文献に存在し、音声検出(VD)タスクの最適化機能を学び、共通のデータセット上で最先端のパフォーマンスを達成する。
これらのモデルには膨大な数のパラメータ(CNNでは1.4M、RNNでは65.7K)があり、そのためメモリと計算能力の点で限られた容量のスマートフォンや組み込みセンサーに配置するには適していない。
この問題に対処する最も一般的な方法は、(モデル圧縮に加えて)ディープラーニング文学における知識蒸留と呼ばれ、教師として知られる大規模な事前学習ネットワークを使用して、より小さな学生ネットワークを訓練する。
音楽情報検索におけるSVDの幅広い応用を考えると、我々の知る限り、実用的な展開のためのモデル圧縮はまだ検討されていない。
本稿では,従来の知識蒸留技術とアンサンブルの知識蒸留技術の両方を用いて,この問題の解明に努めている。
関連論文リスト
- Keyword spotting -- Detecting commands in speech using deep learning [2.709166684084394]
生波形をMel Frequency Cepstral Coefficients (MFCC)に変換することで特徴工学を実現する。
実験では, BiLSTM と Attention を用いた RNN が 93.9% の精度で最高の性能を達成した。
論文 参考訳(メタデータ) (2023-12-09T19:04:17Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Low-resource Low-footprint Wake-word Detection using Knowledge
Distillation [2.9180169405333243]
本稿では,大語彙音声認識における音響モデルデータの利用法について述べる。
実験は、オープンソースの"Hey Snips"データセットと、より困難な社内の遠距離データセットで実施されている。
論文 参考訳(メタデータ) (2022-07-06T15:45:11Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z) - Broadcasted Residual Learning for Efficient Keyword Spotting [7.335747584353902]
モデルサイズと計算負荷を小さくして高精度な放送残差学習手法を提案する。
また,放送残差学習に基づく新しいネットワークアーキテクチャ,BC-Residual Network(BC-ResNet)を提案する。
BC-ResNetsは、Googleの音声コマンドデータセット v1 と v2 で、最先端の98.0% と98.7% のトップ-1 の精度をそれぞれ達成している。
論文 参考訳(メタデータ) (2021-06-08T06:55:39Z) - DeepSpectrumLite: A Power-Efficient Transfer Learning Framework for
Embedded Speech and Audio Processing from Decentralised Data [0.0]
DeepSpectrumLiteは、オンデバイス音声と音声認識のためのオープンソースの軽量転送学習フレームワークです。
このフレームワークは、Mel-spectrogramプロットを生の音声信号からオンザフライで作成し、拡張する。
DenseNet121モデルがコンシューマグレードのMotorola moto e7+スマートフォンで使用される場合、パイプライン全体を242.0ミリ秒の推論ラグでリアルタイムに実行できる。
論文 参考訳(メタデータ) (2021-04-23T14:32:33Z) - PV-NAS: Practical Neural Architecture Search for Video Recognition [83.77236063613579]
ビデオタスクのためのディープニューラルネットワークは高度にカスタマイズされており、そのようなネットワークの設計にはドメインの専門家と高価な試行錯誤テストが必要である。
ネットワークアーキテクチャ検索の最近の進歩により、画像認識性能は大幅に向上した。
本研究では,実用的ビデオニューラルアーキテクチャ探索(PV-NAS)を提案する。
論文 参考訳(メタデータ) (2020-11-02T08:50:23Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。