論文の概要: STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events
- arxiv url: http://arxiv.org/abs/2306.09126v2
- Date: Tue, 14 Nov 2023 08:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 18:51:51.234130
- Title: STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events
- Title(参考訳): starss23: 音響イベントの時空間的注釈付き実シーンの空間的記録の視聴覚データセット
- Authors: Kazuki Shimada, Archontis Politis, Parthasaarathy Sudarsanam, Daniel
Krause, Kengo Uchida, Sharath Adavanne, Aapo Hakala, Yuichiro Koyama, Naoya
Takahashi, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji
- Abstract要約: 音のイベントは通常、視覚的に源となる物体、例えば歩行器の足から発生する音に由来する。
本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。
オーディオ視覚SELDシステムは、アレーからの信号とオーディオ視覚対応を使って、音イベントを検出し、ローカライズすることができる。
- 参考スコア(独自算出の注目度): 30.459545240265246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While direction of arrival (DOA) of sound events is generally estimated from
multichannel audio data recorded in a microphone array, sound events usually
derive from visually perceptible source objects, e.g., sounds of footsteps come
from the feet of a walker. This paper proposes an audio-visual sound event
localization and detection (SELD) task, which uses multichannel audio and video
information to estimate the temporal activation and DOA of target sound events.
Audio-visual SELD systems can detect and localize sound events using signals
from a microphone array and audio-visual correspondence. We also introduce an
audio-visual dataset, Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23),
which consists of multichannel audio data recorded with a microphone array,
video data, and spatiotemporal annotation of sound events. Sound scenes in
STARSS23 are recorded with instructions, which guide recording participants to
ensure adequate activity and occurrences of sound events. STARSS23 also serves
human-annotated temporal activation labels and human-confirmed DOA labels,
which are based on tracking results of a motion capture system. Our benchmark
results demonstrate the benefits of using visual object positions in
audio-visual SELD tasks. The data is available at
https://zenodo.org/record/7880637.
- Abstract(参考訳): マイクアレイに記録された多チャンネルオーディオデータから音のイベントの到着方向(doa)が推定されるのに対し、音のイベントは通常、視覚的に知覚可能な音源オブジェクト(例えば、歩行者の足元から足跡の音)に由来する。
本稿では,多チャンネル音声と映像情報を用いて対象音声イベントの時間的活性化とdoaを推定するseld(audio-visual sound event localization and detection)タスクを提案する。
音声-視覚suldシステムは、マイクロホンアレイからの信号と音声-視覚対応を使用して音声イベントを検出およびローカライズすることができる。
また、マイクロホンアレイ、ビデオデータ、時空間音の時空間アノテーションで記録されたマルチチャンネルオーディオデータからなる音声-視覚データセット、Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23)を導入する。
STARSS23の音声シーンは、参加者が適切な活動と音のイベントの発生を確実にするための指示と共に記録される。
STARSS23はまた、モーションキャプチャーシステムの追跡結果に基づいて、人間の注釈付き時間活性化ラベルと人間確認DOAラベルも提供する。
評価の結果,音声・視覚SELDタスクにおける視覚的物体位置の利点が示された。
データはhttps://zenodo.org/record/7880637で入手できる。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection [16.92604848450722]
本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。
本稿では,ディープニューラルネットワーク(DNN)の特徴抽出部分を自己教師型で事前学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T08:31:58Z) - Enhanced Sound Event Localization and Detection in Real 360-degree
audio-visual soundscapes [0.0]
我々は、音声のみのSELDnet23モデルを構築し、オーディオ情報と映像情報を融合してオーディオ視覚に適応する。
また,音声-視覚データ拡張と音声-視覚合成データ生成を実現するフレームワークを構築した。
論文 参考訳(メタデータ) (2024-01-29T06:05:23Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - A dataset for Audio-Visual Sound Event Detection in Movies [33.59510253345295]
サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。
430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。
音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
論文 参考訳(メタデータ) (2023-02-14T19:55:39Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Multi-label Sound Event Retrieval Using a Deep Learning-based Siamese
Structure with a Pairwise Presence Matrix [11.54047475139282]
最先端の音声イベント検索モデルは、シングルラベル音声記録に重点を置いている。
本稿では,シームズ構造とPairwise Presence Matrixを用いたDeep Learningアーキテクチャを提案する。
ネットワークはSONYC-USTデータセットを用いて訓練・評価され、シングルラベルとマルチラベルのサウンドスケープが記録される。
論文 参考訳(メタデータ) (2020-02-20T21:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。