論文の概要: CURE Dataset: Ladder Networks for Audio Event Classification
- arxiv url: http://arxiv.org/abs/2001.03896v1
- Date: Sun, 12 Jan 2020 09:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 05:08:11.237807
- Title: CURE Dataset: Ladder Networks for Audio Event Classification
- Title(参考訳): CUREデータセット:オーディオイベント分類のためのラダーネットワーク
- Authors: Harishchandra Dubey, Dimitra Emmanouilidou, Ivan J. Tashev
- Abstract要約: 約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
- 参考スコア(独自算出の注目度): 15.850545634216484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio event classification is an important task for several applications such
as surveillance, audio, video and multimedia retrieval etc. There are
approximately 3M people with hearing loss who can't perceive events happening
around them. This paper establishes the CURE dataset which contains curated set
of specific audio events most relevant for people with hearing loss. We propose
a ladder network based audio event classifier that utilizes 5s sound recordings
derived from the Freesound project. We adopted the state-of-the-art
convolutional neural network (CNN) embeddings as audio features for this task.
We also investigate extreme learning machine (ELM) for event classification. In
this study, proposed classifiers are compared with support vector machine (SVM)
baseline. We propose signal and feature normalization that aims to reduce the
mismatch between different recordings scenarios. Firstly, CNN is trained on
weakly labeled Audioset data. Next, the pre-trained model is adopted as feature
extractor for proposed CURE corpus. We incorporate ESC-50 dataset as second
evaluation set. Results and discussions validate the superiority of Ladder
network over ELM and SVM classifier in terms of robustness and increased
classification accuracy. While Ladder network is robust to data mismatches,
simpler SVM and ELM classifiers are sensitive to such mismatches, where the
proposed normalization techniques can play an important role. Experimental
studies with ESC-50 and CURE corpora elucidate the differences in dataset
complexity and robustness offered by proposed approaches.
- Abstract(参考訳): 音声イベント分類は、監視、音声、ビデオ、マルチメディア検索など、いくつかのアプリケーションにとって重要なタスクである。
約300万人が聴力を失い、周囲で起きている出来事を認識できない。
本稿では,聴覚障害者に最も関係のある特定の音声イベントのキュレーションセットを含む治療データセットについて述べる。
本論文では,freesoundプロジェクトから派生した5s音声記録を用いたラダーネットワーク型音声イベント分類器を提案する。
我々は,現在最先端の畳み込みニューラルネットワーク(CNN)をオーディオ機能として採用した。
また,イベント分類のための極端学習機械 (ELM) についても検討する。
本研究では,提案する分類器をサポートベクトルマシン(SVM)ベースラインと比較する。
異なる録音シナリオ間のミスマッチを低減することを目的とした信号と特徴の正規化を提案する。
まず、CNNは弱いラベル付きAudiosetデータに基づいて訓練される。
次に, 予め学習したモデルを用いて, 提案する治療コーパスの特徴抽出を行う。
esc-50データセットを第2の評価セットとして組み込む。
ELM と SVM の分類器に対するラダーネットワークの優位性について,ロバスト性および分類精度の向上の観点から検証した。
Ladder ネットワークはデータミスマッチに対して堅牢であるが、単純な SVM と ELM の分類器はそのようなミスマッチに敏感であり、提案手法が重要な役割を果たす。
ESC-50とCUREコーパスによる実験的研究は、提案手法によって提供されるデータセットの複雑さと堅牢性の違いを解明する。
関連論文リスト
- HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot
Classification with Unimodal Cues [19.800985243540797]
閉鎖性、クラス内変異、照明等は、一方向RS視覚入力を用いたニューラルネットワークのトレーニング中に生じる可能性がある。
そこで本稿では,Halucinated Audio-Visual Embeddings-Network (HAVE-Net) という,限られた単調データからメタトレインのクロスモーダルな特徴を抽出する手法を提案する。
論文 参考訳(メタデータ) (2023-09-23T20:05:00Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - A Study of Few-Shot Audio Classification [2.1989764549743476]
ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。
我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。
また、Kineetics600データセットとAudioSetの少数ショットサブセットを用いてオーディオからのアクティビティ分類を評価し、それぞれ51.5%と35.2%の精度でYouTubeビデオから抽出した。
論文 参考訳(メタデータ) (2020-12-02T22:19:16Z) - An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。
我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文 参考訳(メタデータ) (2020-07-15T19:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。