論文の概要: SONYC-UST-V2: An Urban Sound Tagging Dataset with Spatiotemporal Context
- arxiv url: http://arxiv.org/abs/2009.05188v1
- Date: Fri, 11 Sep 2020 01:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 22:08:01.416332
- Title: SONYC-UST-V2: An Urban Sound Tagging Dataset with Spatiotemporal Context
- Title(参考訳): SONYC-UST-V2:時空間を考慮した都市音響タグデータセット
- Authors: Mark Cartwright, Jason Cramer, Ana Elisa Mendez Mendez, Yu Wang,
Ho-Hsiang Wu, Vincent Lostanlen, Magdalena Fuentes, Graham Dove, Charlie
Mydlarz, Justin Salamon, Oded Nov, and Juan Pablo Bello
- Abstract要約: 時空間情報を用いた都市音のタグ付けのためのデータセットを提案する。
このデータセットは、メタデータが都市サウンドタグの予測にどのように役立つかを調査する機会を提供する。
- 参考スコア(独自算出の注目度): 32.84541094143274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SONYC-UST-V2, a dataset for urban sound tagging with
spatiotemporal information. This dataset is aimed for the development and
evaluation of machine listening systems for real-world urban noise monitoring.
While datasets of urban recordings are available, this dataset provides the
opportunity to investigate how spatiotemporal metadata can aid in the
prediction of urban sound tags. SONYC-UST-V2 consists of 18510 audio recordings
from the "Sounds of New York City" (SONYC) acoustic sensor network, including
the timestamp of audio acquisition and location of the sensor. The dataset
contains annotations by volunteers from the Zooniverse citizen science
platform, as well as a two-stage verification with our team. In this article,
we describe our data collection procedure and propose evaluation metrics for
multilabel classification of urban sound tags. We report the results of a
simple baseline model that exploits spatiotemporal information.
- Abstract(参考訳): SONYC-UST-V2は時空間情報を用いた都市音のタグ付けのためのデータセットである。
本データセットは,実際の都市騒音モニタリングのための機械聴取システムの開発と評価を目的としている。
都市録音のデータセットは利用可能であるが、このデータセットは、時空間メタデータが都市音響タグの予測にどのように役立つかを調べる機会を提供する。
SONYC-UST-V2は"Sounds of New York" (SONYC)音響センサネットワークの18510のオーディオ録音で構成されており、センサの取得と位置のタイムスタンプを含んでいる。
データセットには、zooniverse市民科学プラットフォームからのボランティアによるアノテーションと、チームによる2段階の検証が含まれています。
本稿では,都市音声タグのマルチラベル分類のためのデータ収集手法と評価指標を提案する。
時空間情報を利用した簡易ベースラインモデルの結果を報告する。
関連論文リスト
- VALERIE22 -- A photorealistic, richly metadata annotated dataset of
urban environments [5.439020425819001]
VALERIEツールパイプラインは、ドメイン固有の要素の理解に寄与するために開発された合成データジェネレータである。
VALERIE22データセットは、フォトリアリスティックセンサーシミュレーションを提供するVALERIEプロシージャツールパイプラインで生成された。
データセットは独自のリッチなメタデータセットを提供し、特定のシーンとセマンティックな特徴の抽出を可能にする。
論文 参考訳(メタデータ) (2023-08-18T15:44:45Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Urban Rhapsody: Large-scale exploration of urban soundscapes [12.997538969557649]
騒音は都市環境の主要な品質問題の一つである。
環境騒音レベルを高時間分解能で監視するために、低コストのセンサーを配置することができる。
それらが生成するデータの量とデータの複雑さは、重要な分析上の課題を生じさせる。
本稿では,最先端の音声表現,機械学習,視覚分析を組み合わせたフレームワークであるUrban Rhapsodyを提案する。
論文 参考訳(メタデータ) (2022-05-25T22:02:36Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - TASK3 DCASE2021 Challenge: Sound event localization and detection using
squeeze-excitation residual CNNs [4.4973334555746]
この調査は、昨年同じチームが実施した調査に基づいています。
この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された。
この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2021-07-30T11:34:15Z) - Urban Space Insights Extraction using Acoustic Histogram Information [13.808053718325628]
都市部における屋外活動の検知と降雨期間推定のための低コストアナログ音響センサの実装について検討した。
アナログ音響センサはヒストグラム形式で5分ごとにクラウドに送信され、100ms(10Hz)毎にサンプリングされる音データからなる。
論文 参考訳(メタデータ) (2020-12-10T07:21:34Z) - Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions [64.43064637421007]
本稿では,視覚情報と聴覚情報を統合してカウントする,視覚的群集カウントという新しいタスクを紹介する。
大規模なベンチマークであるauDiovISual Crowd cOuntingデータセットを収集します。
我々は,視覚的特徴と聴覚的特徴のアフィン変換を行う線形特徴量融合モジュールを利用する。
論文 参考訳(メタデータ) (2020-05-14T16:05:47Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。