論文の概要: SONYC-UST-V2: An Urban Sound Tagging Dataset with Spatiotemporal Context
- arxiv url: http://arxiv.org/abs/2009.05188v1
- Date: Fri, 11 Sep 2020 01:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 22:08:01.416332
- Title: SONYC-UST-V2: An Urban Sound Tagging Dataset with Spatiotemporal Context
- Title(参考訳): SONYC-UST-V2:時空間を考慮した都市音響タグデータセット
- Authors: Mark Cartwright, Jason Cramer, Ana Elisa Mendez Mendez, Yu Wang,
Ho-Hsiang Wu, Vincent Lostanlen, Magdalena Fuentes, Graham Dove, Charlie
Mydlarz, Justin Salamon, Oded Nov, and Juan Pablo Bello
- Abstract要約: 時空間情報を用いた都市音のタグ付けのためのデータセットを提案する。
このデータセットは、メタデータが都市サウンドタグの予測にどのように役立つかを調査する機会を提供する。
- 参考スコア(独自算出の注目度): 32.84541094143274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SONYC-UST-V2, a dataset for urban sound tagging with
spatiotemporal information. This dataset is aimed for the development and
evaluation of machine listening systems for real-world urban noise monitoring.
While datasets of urban recordings are available, this dataset provides the
opportunity to investigate how spatiotemporal metadata can aid in the
prediction of urban sound tags. SONYC-UST-V2 consists of 18510 audio recordings
from the "Sounds of New York City" (SONYC) acoustic sensor network, including
the timestamp of audio acquisition and location of the sensor. The dataset
contains annotations by volunteers from the Zooniverse citizen science
platform, as well as a two-stage verification with our team. In this article,
we describe our data collection procedure and propose evaluation metrics for
multilabel classification of urban sound tags. We report the results of a
simple baseline model that exploits spatiotemporal information.
- Abstract(参考訳): SONYC-UST-V2は時空間情報を用いた都市音のタグ付けのためのデータセットである。
本データセットは,実際の都市騒音モニタリングのための機械聴取システムの開発と評価を目的としている。
都市録音のデータセットは利用可能であるが、このデータセットは、時空間メタデータが都市音響タグの予測にどのように役立つかを調べる機会を提供する。
SONYC-UST-V2は"Sounds of New York" (SONYC)音響センサネットワークの18510のオーディオ録音で構成されており、センサの取得と位置のタイムスタンプを含んでいる。
データセットには、zooniverse市民科学プラットフォームからのボランティアによるアノテーションと、チームによる2段階の検証が含まれています。
本稿では,都市音声タグのマルチラベル分類のためのデータ収集手法と評価指標を提案する。
時空間情報を利用した簡易ベースラインモデルの結果を報告する。
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping [7.076417856575795]
サウンドスケープは、ある場所で知覚される音響環境によって定義される。
本研究では,地球上の音環境をマッピングする枠組みを提案する。
我々は、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
論文 参考訳(メタデータ) (2024-08-13T17:37:40Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - VALERIE22 -- A photorealistic, richly metadata annotated dataset of
urban environments [5.439020425819001]
VALERIEツールパイプラインは、ドメイン固有の要素の理解に寄与するために開発された合成データジェネレータである。
VALERIE22データセットは、フォトリアリスティックセンサーシミュレーションを提供するVALERIEプロシージャツールパイプラインで生成された。
データセットは独自のリッチなメタデータセットを提供し、特定のシーンとセマンティックな特徴の抽出を可能にする。
論文 参考訳(メタデータ) (2023-08-18T15:44:45Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Urban Rhapsody: Large-scale exploration of urban soundscapes [12.997538969557649]
騒音は都市環境の主要な品質問題の一つである。
環境騒音レベルを高時間分解能で監視するために、低コストのセンサーを配置することができる。
それらが生成するデータの量とデータの複雑さは、重要な分析上の課題を生じさせる。
本稿では,最先端の音声表現,機械学習,視覚分析を組み合わせたフレームワークであるUrban Rhapsodyを提案する。
論文 参考訳(メタデータ) (2022-05-25T22:02:36Z) - Urban Space Insights Extraction using Acoustic Histogram Information [13.808053718325628]
都市部における屋外活動の検知と降雨期間推定のための低コストアナログ音響センサの実装について検討した。
アナログ音響センサはヒストグラム形式で5分ごとにクラウドに送信され、100ms(10Hz)毎にサンプリングされる音データからなる。
論文 参考訳(メタデータ) (2020-12-10T07:21:34Z) - Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions [64.43064637421007]
本稿では,視覚情報と聴覚情報を統合してカウントする,視覚的群集カウントという新しいタスクを紹介する。
大規模なベンチマークであるauDiovISual Crowd cOuntingデータセットを収集します。
我々は,視覚的特徴と聴覚的特徴のアフィン変換を行う線形特徴量融合モジュールを利用する。
論文 参考訳(メタデータ) (2020-05-14T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。