論文の概要: FSD50K: An Open Dataset of Human-Labeled Sound Events
- arxiv url: http://arxiv.org/abs/2010.00475v2
- Date: Sat, 23 Apr 2022 20:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:43:21.098065
- Title: FSD50K: An Open Dataset of Human-Labeled Sound Events
- Title(参考訳): fsd50k:人間のラベル付き音声イベントのオープンデータセット
- Authors: Eduardo Fonseca, Xavier Favory, Jordi Pons, Frederic Font, Xavier
Serra
- Abstract要約: FSD50Kは、AudioSet Ontologyから抽出された200のクラスを手動でラベル付けした100h以上のオーディオクリップを含む、51k以上のオーディオクリップを含むオープンデータセットである。
オーディオクリップはCreative Commonsライセンスでライセンスされており、データセットを自由に配布できる(波形を含む)。
- 参考スコア(独自算出の注目度): 30.42735806815691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing datasets for sound event recognition (SER) are relatively small
and/or domain-specific, with the exception of AudioSet, based on over 2M tracks
from YouTube videos and encompassing over 500 sound classes. However, AudioSet
is not an open dataset as its official release consists of pre-computed audio
features. Downloading the original audio tracks can be problematic due to
YouTube videos gradually disappearing and usage rights issues. To provide an
alternative benchmark dataset and thus foster SER research, we introduce
FSD50K, an open dataset containing over 51k audio clips totalling over 100h of
audio manually labeled using 200 classes drawn from the AudioSet Ontology. The
audio clips are licensed under Creative Commons licenses, making the dataset
freely distributable (including waveforms). We provide a detailed description
of the FSD50K creation process, tailored to the particularities of Freesound
data, including challenges encountered and solutions adopted. We include a
comprehensive dataset characterization along with discussion of limitations and
key factors to allow its audio-informed usage. Finally, we conduct sound event
classification experiments to provide baseline systems as well as insight on
the main factors to consider when splitting Freesound audio data for SER. Our
goal is to develop a dataset to be widely adopted by the community as a new
open benchmark for SER research.
- Abstract(参考訳): 既存のサウンドイベント認識のためのデータセット(ser)は、youtubeビデオからの200万以上のトラックに基づいて、500以上のサウンドクラスを包含するaudiosetを除いて、比較的小さくてドメイン固有である。
しかし、audiosetは、事前計算されたオーディオ機能で構成される公式リリースであるため、オープンなデータセットではない。
オリジナルのオーディオトラックのダウンロードは、YouTubeビデオが徐々に消え、使用権が問題になるため、問題になる可能性がある。
代替ベンチマークデータセットを提供するため、sd50kは51k以上の音声クリップを含むオープンデータセットであり、オーディオセットオントロジーから引き出された200クラスを用いて100時間以上の音声を手動でラベル付けしている。
オーディオクリップはCreative Commonsライセンスでライセンスされており、データセットを自由に配布できる(波形を含む)。
本稿では,FSD50K作成プロセスの詳細をFreesoundデータの特徴に合わせて記述する。
音声インフォームドの使用を可能にするための制限と重要な要素について、包括的データセットの特徴付けを含む。
最後に,基本システムを提供するために音響イベント分類実験を行い,freesoundオーディオデータをserに分割する際に考慮すべき主な要因について考察する。
我々の目標は、SER研究のための新しいオープンベンチマークとして、コミュニティが広く採用するデータセットを開発することです。
関連論文リスト
- Sound Check: Auditing Audio Datasets [4.955141080136429]
生成オーディオモデルは、機能と公共利用の両方において急速に進歩している。
我々は,数百の音声データセットの文献レビューを行い,最も顕著な7つを選択した。
その結果、これらのデータセットは女性に対して偏りがあり、辺縁化コミュニティに関する有害なステレオタイプを含み、かなりの量の著作権作品を含んでいることがわかった。
論文 参考訳(メタデータ) (2024-10-17T00:51:27Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - A dataset for Audio-Visual Sound Event Detection in Movies [33.59510253345295]
サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。
430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。
音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
論文 参考訳(メタデータ) (2023-02-14T19:55:39Z) - ARCA23K: An audio dataset for investigating open-set label noise [48.683197172795865]
本稿では、23,000以上のラベル付きFreesoundクリップからなる自動検索およびキュレートされたオーディオデータセットであるARCA23Kを紹介する。
本稿では,ARCA23Kのラベリング誤りの大部分は語彙外音声クリップによるものであり,このタイプのラベリングノイズをオープンセットラベルノイズと呼ぶ。
論文 参考訳(メタデータ) (2021-09-19T21:10:25Z) - Half-Truth: A Partially Fake Audio Detection Dataset [60.08010668752466]
本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセットの部分的に偽の音声は、発話中の数単語だけを変更する。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
論文 参考訳(メタデータ) (2021-04-08T08:57:13Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。