論文の概要: STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events
- arxiv url: http://arxiv.org/abs/2306.09126v1
- Date: Thu, 15 Jun 2023 13:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 14:36:39.280824
- Title: STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events
- Title(参考訳): starss23: 音響イベントの時空間的注釈付き実シーンの空間的記録の視聴覚データセット
- Authors: Kazuki Shimada, Archontis Politis, Parthasaarathy Sudarsanam, Daniel
Krause, Kengo Uchida, Sharath Adavanne, Aapo Hakala, Yuichiro Koyama, Naoya
Takahashi, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji
- Abstract要約: 本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。
マルチチャンネルオーディオと方向情報を用いて、ターゲット音事象の時間的アクティベーションDOAを推定する。
我々は、マイクロホンアレイで記録されたマルチチャンネルオーディオデータからなるオーディオ映像データセット、Sony-TAu Realistic Spatial Soundscapes 2023(STARSS23)を紹介する。
評価の結果,音声ビジョンSELDシステムでは,音声のみのシステムよりもローカライズ誤差が低いことがわかった。
- 参考スコア(独自算出の注目度): 28.734400556110195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While direction of arrival (DOA) of sound events is generally estimated from
multichannel audio data recorded in a microphone array, sound events usually
derive from visually perceptible source objects, e.g., sounds of footsteps come
from the feet of a walker. This paper proposes an audio-visual sound event
localization and detection (SELD) task, which uses multichannel audio and video
information to estimate the temporal activation and DOA of target sound events.
Audio-visual SELD systems can detect and localize sound events using signals
from a microphone array and audio-visual correspondence. We also introduce an
audio-visual dataset, Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23),
which consists of multichannel audio data recorded with a microphone array,
video data, and spatiotemporal annotation of sound events. Sound scenes in
STARSS23 are recorded with instructions, which guide recording participants to
ensure adequate activity and occurrences of sound events. STARSS23 also serves
human-annotated temporal activation labels and human-confirmed DOA labels,
which are based on tracking results of a motion capture system. Our benchmark
results show that the audio-visual SELD system achieves lower localization
error than the audio-only system. The data is available at
https://zenodo.org/record/7880637.
- Abstract(参考訳): マイクアレイに記録された多チャンネルオーディオデータから音のイベントの到着方向(doa)が推定されるのに対し、音のイベントは通常、視覚的に知覚可能な音源オブジェクト(例えば、歩行者の足元から足跡の音)に由来する。
本稿では,多チャンネル音声と映像情報を用いて対象音声イベントの時間的活性化とdoaを推定するseld(audio-visual sound event localization and detection)タスクを提案する。
音声-視覚suldシステムは、マイクロホンアレイからの信号と音声-視覚対応を使用して音声イベントを検出およびローカライズすることができる。
また、マイクロホンアレイ、ビデオデータ、時空間音の時空間アノテーションで記録されたマルチチャンネルオーディオデータからなる音声-視覚データセット、Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23)を導入する。
STARSS23の音声シーンは、参加者が適切な活動と音のイベントの発生を確実にするための指示と共に記録される。
STARSS23はまた、モーションキャプチャーシステムの追跡結果に基づいて、人間の注釈付き時間活性化ラベルと人間確認DOAラベルも提供する。
評価の結果,音声視覚SELDシステムは,音声のみのシステムよりもローカライゼーション誤差が低いことがわかった。
データはhttps://zenodo.org/record/7880637で入手できる。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection [16.92604848450722]
本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。
本稿では,ディープニューラルネットワーク(DNN)の特徴抽出部分を自己教師型で事前学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T08:31:58Z) - Enhanced Sound Event Localization and Detection in Real 360-degree
audio-visual soundscapes [0.0]
我々は、音声のみのSELDnet23モデルを構築し、オーディオ情報と映像情報を融合してオーディオ視覚に適応する。
また,音声-視覚データ拡張と音声-視覚合成データ生成を実現するフレームワークを構築した。
論文 参考訳(メタデータ) (2024-01-29T06:05:23Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - A dataset for Audio-Visual Sound Event Detection in Movies [33.59510253345295]
サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。
430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。
音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
論文 参考訳(メタデータ) (2023-02-14T19:55:39Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Multi-label Sound Event Retrieval Using a Deep Learning-based Siamese
Structure with a Pairwise Presence Matrix [11.54047475139282]
最先端の音声イベント検索モデルは、シングルラベル音声記録に重点を置いている。
本稿では,シームズ構造とPairwise Presence Matrixを用いたDeep Learningアーキテクチャを提案する。
ネットワークはSONYC-USTデータセットを用いて訓練・評価され、シングルラベルとマルチラベルのサウンドスケープが記録される。
論文 参考訳(メタデータ) (2020-02-20T21:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。