Fugu-MT 論文翻訳(概要): STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events

論文の概要: STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events

arxiv url: http://arxiv.org/abs/2306.09126v2
Date: Tue, 14 Nov 2023 08:29:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 18:51:51.234130
Title: STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events
Title（参考訳）: starss23: 音響イベントの時空間的注釈付き実シーンの空間的記録の視聴覚データセット
Authors: Kazuki Shimada, Archontis Politis, Parthasaarathy Sudarsanam, Daniel Krause, Kengo Uchida, Sharath Adavanne, Aapo Hakala, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji
Abstract要約: 音のイベントは通常、視覚的に源となる物体、例えば歩行器の足から発生する音に由来する。本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。オーディオ視覚SELDシステムは、アレーからの信号とオーディオ視覚対応を使って、音イベントを検出し、ローカライズすることができる。
参考スコア（独自算出の注目度）: 30.459545240265246
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While direction of arrival (DOA) of sound events is generally estimated from multichannel audio data recorded in a microphone array, sound events usually derive from visually perceptible source objects, e.g., sounds of footsteps come from the feet of a walker. This paper proposes an audio-visual sound event localization and detection (SELD) task, which uses multichannel audio and video information to estimate the temporal activation and DOA of target sound events. Audio-visual SELD systems can detect and localize sound events using signals from a microphone array and audio-visual correspondence. We also introduce an audio-visual dataset, Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23), which consists of multichannel audio data recorded with a microphone array, video data, and spatiotemporal annotation of sound events. Sound scenes in STARSS23 are recorded with instructions, which guide recording participants to ensure adequate activity and occurrences of sound events. STARSS23 also serves human-annotated temporal activation labels and human-confirmed DOA labels, which are based on tracking results of a motion capture system. Our benchmark results demonstrate the benefits of using visual object positions in audio-visual SELD tasks. The data is available at https://zenodo.org/record/7880637.
Abstract（参考訳）: マイクアレイに記録された多チャンネルオーディオデータから音のイベントの到着方向(doa)が推定されるのに対し、音のイベントは通常、視覚的に知覚可能な音源オブジェクト(例えば、歩行者の足元から足跡の音)に由来する。本稿では,多チャンネル音声と映像情報を用いて対象音声イベントの時間的活性化とdoaを推定するseld(audio-visual sound event localization and detection)タスクを提案する。音声-視覚suldシステムは、マイクロホンアレイからの信号と音声-視覚対応を使用して音声イベントを検出およびローカライズすることができる。また、マイクロホンアレイ、ビデオデータ、時空間音の時空間アノテーションで記録されたマルチチャンネルオーディオデータからなる音声-視覚データセット、Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23)を導入する。 STARSS23の音声シーンは、参加者が適切な活動と音のイベントの発生を確実にするための指示と共に記録される。 STARSS23はまた、モーションキャプチャーシステムの追跡結果に基づいて、人間の注釈付き時間活性化ラベルと人間確認DOAラベルも提供する。評価の結果,音声・視覚SELDタスクにおける視覚的物体位置の利点が示された。データはhttps://zenodo.org/record/7880637で入手できる。

関連論文リスト

Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection [16.92604848450722]
本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。本稿では,ディープニューラルネットワーク(DNN)の特徴抽出部分を自己教師型で事前学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-30T08:31:58Z)
Enhanced Sound Event Localization and Detection in Real 360-degree audio-visual soundscapes [0.0]
我々は、音声のみのSELDnet23モデルを構築し、オーディオ情報と映像情報を融合してオーディオ視覚に適応する。また,音声-視覚データ拡張と音声-視覚合成データ生成を実現するフレームワークを構築した。
論文参考訳（メタデータ） (2024-01-29T06:05:23Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文参考訳（メタデータ） (2023-03-22T22:00:17Z)
A dataset for Audio-Visual Sound Event Detection in Movies [33.59510253345295]
サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。 430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
論文参考訳（メタデータ） (2023-02-14T19:55:39Z)
Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文参考訳（メタデータ） (2023-02-01T18:19:37Z)
Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文参考訳（メタデータ） (2022-02-02T02:03:28Z)
Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文参考訳（メタデータ） (2021-11-05T14:35:08Z)
Multi-label Sound Event Retrieval Using a Deep Learning-based Siamese Structure with a Pairwise Presence Matrix [11.54047475139282]
最先端の音声イベント検索モデルは、シングルラベル音声記録に重点を置いている。本稿では,シームズ構造とPairwise Presence Matrixを用いたDeep Learningアーキテクチャを提案する。ネットワークはSONYC-USTデータセットを用いて訓練・評価され、シングルラベルとマルチラベルのサウンドスケープが記録される。
論文参考訳（メタデータ） (2020-02-20T21:33:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。