論文の概要: Stereo Sound Event Localization and Detection with Onscreen/offscreen Classification
- arxiv url: http://arxiv.org/abs/2507.12042v1
- Date: Wed, 16 Jul 2025 08:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.316593
- Title: Stereo Sound Event Localization and Detection with Onscreen/offscreen Classification
- Title(参考訳): オンスクリーン/オフスクリーン分類によるステレオ音声イベントの定位と検出
- Authors: Kazuki Shimada, Archontis Politis, Iran R. Roman, Parthasaarathy Sudarsanam, David Diaz-Guerra, Ruchi Pandey, Kengo Uchida, Yuichiro Koyama, Naoya Takahashi, Takashi Shibuya, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji,
- Abstract要約: 本稿では,音事象の定位・検出(SELD)に関するDCASE2025 Challengeのタスク3の目的,データセット,ベースライン,メトリクスについて述べる。
ステレオ音声データを用いたSELDの今年の課題
ステレオオーディオデータに固有の角のあいまいさのため,アジマス平面の方向推定と距離推定に重点を置いている。
- 参考スコア(独自算出の注目度): 30.478658481422794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the objective, dataset, baseline, and metrics of Task 3 of the DCASE2025 Challenge on sound event localization and detection (SELD). In previous editions, the challenge used four-channel audio formats of first-order Ambisonics (FOA) and microphone array. In contrast, this year's challenge investigates SELD with stereo audio data (termed stereo SELD). This change shifts the focus from more specialized 360{\deg} audio and audiovisual scene analysis to more commonplace audio and media scenarios with limited field-of-view (FOV). Due to inherent angular ambiguities in stereo audio data, the task focuses on direction-of-arrival (DOA) estimation in the azimuth plane (left-right axis) along with distance estimation. The challenge remains divided into two tracks: audio-only and audiovisual, with the audiovisual track introducing a new sub-task of onscreen/offscreen event classification necessitated by the limited FOV. This challenge introduces the DCASE2025 Task3 Stereo SELD Dataset, whose stereo audio and perspective video clips are sampled and converted from the STARSS23 recordings. The baseline system is designed to process stereo audio and corresponding video frames as inputs. In addition to the typical SELD event classification and localization, it integrates onscreen/offscreen classification for the audiovisual track. The evaluation metrics have been modified to introduce an onscreen/offscreen accuracy metric, which assesses the models' ability to identify which sound sources are onscreen. In the experimental evaluation, the baseline system performs reasonably well with the stereo audio data.
- Abstract(参考訳): 本稿では,音事象の局所化と検出(SELD)に関するDCASE2025 Challengeのタスク3の目的,データセット,ベースライン,メトリクスについて述べる。
以前の版では、4チャンネルのAmbisonics (FOA) とマイクロフォンアレイを使用していた。
対照的に、今年の課題はステレオ音声データ(終端ステレオSELD)を用いてSELDを調べることである。
この変更により、より専門的な360{\deg}オーディオとオーディオヴィジュアルのシーン分析から、限られた視野(FOV)を持つより一般的なオーディオとメディアのシナリオへと焦点が移る。
ステレオオーディオデータに固有の角のあいまいさのため、そのタスクは方位面(左右軸)における方向方向推定(DOA)と距離推定に重点を置いている。
この課題は、オーディオのみとオーディオヴィジュアルの2つのトラックに分かれており、オーディオヴィジュアルトラックは、限定されたFOVによって必要となる、オンスクリーン/オフスクリーンのイベント分類の新しいサブタスクを導入している。
この課題はDCASE2025 Task3 Stereo SELD Datasetを導入し、ステレオオーディオと視点ビデオクリップをSTARSS23レコードからサンプリングして変換する。
ベースラインシステムはステレオオーディオおよび対応するビデオフレームを入力として処理するように設計されている。
典型的なSELDイベント分類とローカライゼーションに加えて、オーディオヴィジュアルトラックのオンスクリーン/オフスクリーン分類を統合している。
評価指標は、どの音源がスクリーン上にあるかを識別するモデルの能力を評価する、オンスクリーン/オフスクリーンの精度指標を導入するために修正されている。
実験的な評価では、ベースラインシステムはステレオオーディオデータと合理的に良好に動作する。
関連論文リスト
- Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection [16.92604848450722]
本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。
本稿では,ディープニューラルネットワーク(DNN)の特徴抽出部分を自己教師型で事前学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T08:31:58Z) - Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation [3.2472293599354596]
本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声イベントの定位と検出を行うシステムについて述べる。
本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。
このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
論文 参考訳(メタデータ) (2024-10-29T17:28:43Z) - Audio-Visual Talker Localization in Video for Spatial Sound Reproduction [3.2472293599354596]
本研究では,ビデオ中のアクティブ話者を検出し,検出する。
互いに補完する2つのモダリティの役割を見出した。
今後の調査では、ノイズの多い高残響環境下でのモデルの堅牢性を評価する予定である。
論文 参考訳(メタデータ) (2024-06-01T16:47:07Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2023-05-12T03:31:04Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。