論文の概要: Acoustic Scene Classification Using Bilinear Pooling on Time-liked and
Frequency-liked Convolution Neural Network
- arxiv url: http://arxiv.org/abs/2002.07065v1
- Date: Fri, 14 Feb 2020 04:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 04:31:29.326938
- Title: Acoustic Scene Classification Using Bilinear Pooling on Time-liked and
Frequency-liked Convolution Neural Network
- Title(参考訳): 時間型および周波数型畳み込みニューラルネットワークにおけるバイリニアプーリングを用いた音響シーン分類
- Authors: Xing Yong Kek, Cheng Siong Chin, Ye Li
- Abstract要約: 本稿では、高調波とパーカッシブ音源分離(HPSS)を用いて、音声を高調波とパーカッシブ音源に分割する方法について検討する。
これら2つのCNNから抽出された深い特徴は、双線形プールによって結合される。
このモデルはDCASE 2019サブタスク1aデータセットで評価されており、開発データセットで平均65%のスコアを得ている。
- 参考スコア(独自算出の注目度): 4.131608702779222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current methodology in tackling Acoustic Scene Classification (ASC) task
can be described in two steps, preprocessing of the audio waveform into log-mel
spectrogram and then using it as the input representation for Convolutional
Neural Network (CNN). This paradigm shift occurs after DCASE 2016 where this
framework model achieves the state-of-the-art result in ASC tasks on the
(ESC-50) dataset and achieved an accuracy of 64.5%, which constitute to 20.5%
improvement over the baseline model, and DCASE 2016 dataset with an accuracy of
90.0% (development) and 86.2% (evaluation), which constitute a 6.4% and 9%
improvements with respect to the baseline system. In this paper, we explored
the use of harmonic and percussive source separation (HPSS) to split the audio
into harmonic audio and percussive audio, which has received popularity in the
field of music information retrieval (MIR). Although works have been done in
using HPSS as input representation for CNN model in ASC task, this paper
further investigate the possibility on leveraging the separated harmonic
component and percussive component by curating 2 CNNs which tries to understand
harmonic audio and percussive audio in their natural form, one specialized in
extracting deep features in time biased domain and another specialized in
extracting deep features in frequency biased domain, respectively. The deep
features extracted from these 2 CNNs will then be combined using bilinear
pooling. Hence, presenting a two-stream time and frequency CNN architecture
approach in classifying acoustic scene. The model is being evaluated on DCASE
2019 sub task 1a dataset and scored an average of 65% on development dataset,
Kaggle Leadership Private and Public board.
- Abstract(参考訳): 音響シーン分類(asc)タスクに取り組む現在の手法は、音声波形をログメルスペクトログラムに前処理し、畳み込みニューラルネットワーク(cnn)の入力表現として使用するという2つのステップで記述できる。
このパラダイムシフトは、このフレームワークモデルが(ESC-50)データセット上のASCタスクの最先端の結果を達成し、ベースラインモデルよりも20.5%向上する64.5%の精度を達成したDCASE 2016と、ベースラインシステムに関して6.4%と9%改善した90.0%(開発)と86.2%(評価)の精度を持つDCASE 2016データセットの後に発生した。
本稿では,音楽情報検索(mir)の分野で人気を集めている高調波音源分離法(hpss)を用いて,高調波音源分離法(harmonic and percussive source separation)について検討した。
ASCタスクにおけるCNNモデルの入力表現としてHPSSを用いた研究は行われているが,本論文では,各周波数偏り領域における深い特徴の抽出を専門とする2つのCNNを,それぞれに周波数偏り領域における深い特徴の抽出を専門とする2つのCNNをキュレートすることにより,分離した高調波成分とパーカッシブ成分の活用の可能性について検討する。
これら2つのCNNから抽出された深い特徴は、双線形プールによって結合される。
したがって、音響シーンの分類における2ストリーム時間と周波数CNNアーキテクチャのアプローチを提案する。
このモデルはDCASE 2019サブタスク1aデータセットで評価されており、Kaggle Leadership Private and Public Boardによると、開発データセットで平均65%のスコアを得ている。
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - AudioCLIP: Extending CLIP to Image, Text and Audio [6.585049648605185]
テキストや画像に加えて音声を扱うCLIPモデルの拡張を提案する。
提案モデルでは,AudioSetデータセットを用いてESResNeXtオーディオモデルをCLIPフレームワークに組み込む。
環境音分類(ESC)タスクにおいて,AudioCLIPは新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-24T14:16:38Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - AST: Audio Spectrogram Transformer [21.46018186487818]
オーディオ分類のための最初の畳み込みのない、純粋に注意に基づくモデルであるAudio Spectrogram Transformer(AST)を紹介します。
ASTはAudioSetの0.485 mAP、ESC-50の95.6%、音声コマンドV2の98.1%の精度で新しい最先端の結果を達成している。
論文 参考訳(メタデータ) (2021-04-05T05:26:29Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。