Fugu-MT 論文翻訳(概要): SONYC-UST-V2: An Urban Sound Tagging Dataset with Spatiotemporal Context

論文の概要: SONYC-UST-V2: An Urban Sound Tagging Dataset with Spatiotemporal Context

arxiv url: http://arxiv.org/abs/2009.05188v1
Date: Fri, 11 Sep 2020 01:19:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-19 22:08:01.416332
Title: SONYC-UST-V2: An Urban Sound Tagging Dataset with Spatiotemporal Context
Title（参考訳）: SONYC-UST-V2:時空間を考慮した都市音響タグデータセット
Authors: Mark Cartwright, Jason Cramer, Ana Elisa Mendez Mendez, Yu Wang, Ho-Hsiang Wu, Vincent Lostanlen, Magdalena Fuentes, Graham Dove, Charlie Mydlarz, Justin Salamon, Oded Nov, and Juan Pablo Bello
Abstract要約: 時空間情報を用いた都市音のタグ付けのためのデータセットを提案する。このデータセットは、メタデータが都市サウンドタグの予測にどのように役立つかを調査する機会を提供する。
参考スコア（独自算出の注目度）: 32.84541094143274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present SONYC-UST-V2, a dataset for urban sound tagging with spatiotemporal information. This dataset is aimed for the development and evaluation of machine listening systems for real-world urban noise monitoring. While datasets of urban recordings are available, this dataset provides the opportunity to investigate how spatiotemporal metadata can aid in the prediction of urban sound tags. SONYC-UST-V2 consists of 18510 audio recordings from the "Sounds of New York City" (SONYC) acoustic sensor network, including the timestamp of audio acquisition and location of the sensor. The dataset contains annotations by volunteers from the Zooniverse citizen science platform, as well as a two-stage verification with our team. In this article, we describe our data collection procedure and propose evaluation metrics for multilabel classification of urban sound tags. We report the results of a simple baseline model that exploits spatiotemporal information.
Abstract（参考訳）: SONYC-UST-V2は時空間情報を用いた都市音のタグ付けのためのデータセットである。本データセットは,実際の都市騒音モニタリングのための機械聴取システムの開発と評価を目的としている。都市録音のデータセットは利用可能であるが、このデータセットは、時空間メタデータが都市音響タグの予測にどのように役立つかを調べる機会を提供する。 SONYC-UST-V2は"Sounds of New York" (SONYC)音響センサネットワークの18510のオーディオ録音で構成されており、センサの取得と位置のタイムスタンプを含んでいる。データセットには、zooniverse市民科学プラットフォームからのボランティアによるアノテーションと、チームによる2段階の検証が含まれています。本稿では,都市音声タグのマルチラベル分類のためのデータ収集手法と評価指標を提案する。時空間情報を利用した簡易ベースラインモデルの結果を報告する。

関連論文リスト

On the Role of Label Noise in the Feature Learning Process [90.49232384723268]
各サンプルはラベルに依存しない信号とラベルに依存しない雑音から構成される。分析では,2つの重要な段階を同定する。第1段階では,ノイズを無視しながら,すべてのクリーンサンプルに完全に適合するモデルである。ステージIIでは、ノイズ方向の勾配が信号の勾配を超え、ノイズのあるサンプルに過度に収まる。
論文参考訳（メタデータ） (2025-05-25T00:13:28Z)
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。 2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文参考訳（メタデータ） (2024-10-02T22:05:36Z)
PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping [7.076417856575795]
サウンドスケープは、ある場所で知覚される音響環境によって定義される。本研究では,地球上の音環境をマッピングする枠組みを提案する。我々は、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
論文参考訳（メタデータ） (2024-08-13T17:37:40Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
VALERIE22 -- A photorealistic, richly metadata annotated dataset of urban environments [5.439020425819001]
VALERIEツールパイプラインは、ドメイン固有の要素の理解に寄与するために開発された合成データジェネレータである。 VALERIE22データセットは、フォトリアリスティックセンサーシミュレーションを提供するVALERIEプロシージャツールパイプラインで生成された。データセットは独自のリッチなメタデータセットを提供し、特定のシーンとセマンティックな特徴の抽出を可能にする。
論文参考訳（メタデータ） (2023-08-18T15:44:45Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。音源の視点で観測された視界と音から見えない対象の視点からそのシーンの音を合成できるか? 空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文参考訳（メタデータ） (2023-01-20T18:49:58Z)
Urban Rhapsody: Large-scale exploration of urban soundscapes [12.997538969557649]
騒音は都市環境の主要な品質問題の一つである。環境騒音レベルを高時間分解能で監視するために、低コストのセンサーを配置することができる。それらが生成するデータの量とデータの複雑さは、重要な分析上の課題を生じさせる。本稿では,最先端の音声表現,機械学習,視覚分析を組み合わせたフレームワークであるUrban Rhapsodyを提案する。
論文参考訳（メタデータ） (2022-05-25T22:02:36Z)
Urban Space Insights Extraction using Acoustic Histogram Information [13.808053718325628]
都市部における屋外活動の検知と降雨期間推定のための低コストアナログ音響センサの実装について検討した。アナログ音響センサはヒストグラム形式で5分ごとにクラウドに送信され、100ms(10Hz)毎にサンプリングされる音データからなる。
論文参考訳（メタデータ） (2020-12-10T07:21:34Z)
Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions [64.43064637421007]
本稿では,視覚情報と聴覚情報を統合してカウントする,視覚的群集カウントという新しいタスクを紹介する。大規模なベンチマークであるauDiovISual Crowd cOuntingデータセットを収集します。我々は,視覚的特徴と聴覚的特徴のアフィン変換を行う線形特徴量融合モジュールを利用する。
論文参考訳（メタデータ） (2020-05-14T16:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。