論文の概要: An Open-set Recognition and Few-Shot Learning Dataset for Audio Event
Classification in Domestic Environments
- arxiv url: http://arxiv.org/abs/2002.11561v8
- Date: Mon, 11 Apr 2022 08:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 16:00:26.817889
- Title: An Open-set Recognition and Few-Shot Learning Dataset for Audio Event
Classification in Domestic Environments
- Title(参考訳): 室内環境における音声イベント分類のためのオープンセット認識とマイナショット学習データセット
- Authors: Javier Naranjo-Alcazar, Sergi Perez-Castanos, Pedro Zuccarrello, Ana
M. Torres, Jose J. Lopez, Franscesc J. Ferri and Maximo Cobos
- Abstract要約: 本稿では,様々な種類の音響アラームが与える特定の,意図的な音響事象の検出に,数発の学習を適用した。
このようなアラームを現実的なシナリオで検出することは、オープンセット認識(OSR)問題とみなすことができる。
本論文は,34のクラスから1360のクリップをパターン音と不要音に分割した,注意深い注釈付きデータセットで音声認識コミュニティを構築することを目的としている。
- 参考スコア(独自算出の注目度): 3.697508383732901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of training with a small set of positive samples is known as
few-shot learning (FSL). It is widely known that traditional deep learning (DL)
algorithms usually show very good performance when trained with large datasets.
However, in many applications, it is not possible to obtain such a high number
of samples. In the image domain, typical FSL applications include those related
to face recognition. In the audio domain, music fraud or speaker recognition
can be clearly benefited from FSL methods. This paper deals with the
application of FSL to the detection of specific and intentional acoustic events
given by different types of sound alarms, such as door bells or fire alarms,
using a limited number of samples. These sounds typically occur in domestic
environments where many events corresponding to a wide variety of sound classes
take place. Therefore, the detection of such alarms in a practical scenario can
be considered an open-set recognition (OSR) problem. To address the lack of a
dedicated public dataset for audio FSL, researchers usually make modifications
on other available datasets. This paper is aimed at poviding the audio
recognition community with a carefully annotated dataset
(https://zenodo.org/record/3689288) for FSL in an OSR context comprised of 1360
clips from 34 classes divided into pattern sounds} and unwanted sounds. To
facilitate and promote research on this area, results with state-of-the-art
baseline systems based on transfer learning are also presented.
- Abstract(参考訳): 少数の正のサンプルを用いたトレーニングの問題は、少数ショット学習(FSL)として知られている。
従来のディープラーニング(DL)アルゴリズムは、大規模なデータセットでトレーニングされた場合、非常に優れたパフォーマンスを示すことが広く知られている。
しかし、多くの応用において、そのような多くのサンプルを得ることはできない。
画像領域では、典型的なFSLアプリケーションは顔認識に関連するものを含んでいる。
オーディオ領域では、音楽不正や話者認識は明らかにFSL法から恩恵を受けることができる。
本報告では, ドアベルや火災警報など, 様々な種類の音響アラームから発生する特定の音響イベントや意図的な音響イベントを, 限られたサンプルを用いて検出するためのFSLの適用について論じる。
これらの音は通常、様々な音のクラスに対応する多くのイベントが行われる国内環境で発生する。
したがって、実用的なシナリオにおけるそのようなアラームの検出は、オープンセット認識(osr)問題と見なすことができる。
オーディオFSL専用のパブリックデータセットがないため、研究者は通常、他の利用可能なデータセットを変更する。
本論文は,34のクラスから1360のクリップをパターン音と不要音に分割したOSRコンテキストにおいて,FSLに注意深い注釈付きデータセット(https://zenodo.org/record/3689288)を付与することを目的とした。
また,この領域の研究を促進・促進するために,伝達学習に基づく最先端のベースラインシステムによる結果も提示した。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Exploring Federated Self-Supervised Learning for General Purpose Audio
Understanding [14.468870364990291]
本稿では,大規模な分散異種クライアントから中間機能表現を学習可能な新しいF-SSLフレームワークであるFASSLを提案する。
本研究は,音声-検索タスクにおける集中型音声-SSLアプローチと同等に音声F-SSLアプローチが動作することを示した。
論文 参考訳(メタデータ) (2024-02-05T10:57:48Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Building a Noisy Audio Dataset to Evaluate Machine Learning Approaches
for Automatic Speech Recognition Systems [0.0]
この研究は、ノイズの多いオーディオのデータセットを構築する過程を、干渉による劣化したオーディオの特定のケースで提示することを目的としている。
また、このようなデータを評価に利用する分類器の初期結果を示し、認識者の学習プロセスでこのデータセットを使用することの利点を示す。
論文 参考訳(メタデータ) (2021-10-04T13:08:53Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Deep Learning Radio Frequency Signal Classification with Hybrid Images [0.0]
入力トレーニングデータに使用できるさまざまな前処理ステップに注目し、結果を固定されたディープラーニングアーキテクチャでテストする。
本稿では,時間領域情報と周波数領域情報の両方を利用するハイブリッド画像を提案し,コンピュータビジョン問題として分類する。
論文 参考訳(メタデータ) (2021-05-19T11:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。