論文の概要: Low-complexity deep learning frameworks for acoustic scene
classification
- arxiv url: http://arxiv.org/abs/2206.06057v1
- Date: Mon, 13 Jun 2022 11:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 18:23:03.752388
- Title: Low-complexity deep learning frameworks for acoustic scene
classification
- Title(参考訳): 音響シーン分類のための低複雑深層学習フレームワーク
- Authors: Lam Pham, Dat Ngo, Anahid Jalali, Alexander Schindler
- Abstract要約: 音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
- 参考スコア(独自算出の注目度): 64.22762153453175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we presents low-complexity deep learning frameworks for
acoustic scene classification (ASC). The proposed frameworks can be separated
into four main steps: Front-end spectrogram extraction, online data
augmentation, back-end classification, and late fusion of predicted
probabilities. In particular, we initially transform audio recordings into Mel,
Gammatone, and CQT spectrograms. Next, data augmentation methods of Random
Cropping, Specaugment, and Mixup are then applied to generate augmented
spectrograms before being fed into deep learning based classifiers. Finally, to
achieve the best performance, we fuse probabilities which obtained from three
individual classifiers, which are independently-trained with three type of
spectrograms. Our experiments conducted on DCASE 2022 Task 1 Development
dataset have fullfiled the requirement of low-complexity and achieved the best
classification accuracy of 60.1%, improving DCASE baseline by 17.2%.
- Abstract(参考訳): 本稿では,音響シーン分類(ASC)のための低複雑深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンド分類、予測確率の後期融合の4つの主要なステップに分けることができる。
特に,まず音声録音をメル,ガンマタン,およびcqtスペクトログラムに変換する。
次に、ランダムクロップ、スペクタグメント、ミックスアップのデータ拡張手法を適用し、深層学習に基づく分類器に入力する前に、拡張スペクトログラムを生成する。
最後に, 3つの個別分類器から得られた確率を, 3種類のスペクトログラムで独立に学習し, 最適性能を得る。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要件を十分に満たし,60.1%の最高の分類精度を達成し,DCASE ベースラインを17.2%向上させた。
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Improving Primate Sounds Classification using Binary Presorting for Deep
Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。
バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。
本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文 参考訳(メタデータ) (2023-06-28T09:35:09Z) - Improved Zero-Shot Audio Tagging & Classification with Patchout
Spectrogram Transformers [7.817685358710508]
Zero-Shot(ZS)学習は、適応可能なクラス記述に基づいてクラスを予測することによって制約を克服する。
本研究では,ZS学習における自己注意型音声埋め込みアーキテクチャの有効性について検討する。
論文 参考訳(メタデータ) (2022-08-24T09:48:22Z) - Improving Post-Processing of Audio Event Detectors Using Reinforcement
Learning [5.758073912084364]
我々は,ポストプロセッシングスタックの様々な段階における最適パラメータを共同で発見するために強化学習を用いる。
音声イベントベースのマクロF1スコアを4-5%改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-19T08:00:26Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。