論文の概要: Integrating Spatial and Semantic Embeddings for Stereo Sound Event Localization in Videos
- arxiv url: http://arxiv.org/abs/2509.06598v1
- Date: Mon, 08 Sep 2025 12:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.113486
- Title: Integrating Spatial and Semantic Embeddings for Stereo Sound Event Localization in Videos
- Title(参考訳): ステレオ音場定位のための空間的・意味的埋め込みの統合
- Authors: Davide Berghi, Philip J. B. Jackson,
- Abstract要約: 3D SELDは時間的事象分類と空間的局所化を組み合わせた複雑なタスクである。
従来のSELDアプローチは一般的にマルチチャネル入力に依存している。
我々は,事前学習されたコントラスト言語対応モデルを統合することで,意味情報を用いた標準的なSELDアーキテクチャを強化する。
- 参考スコア(独自算出の注目度): 5.010383717530127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we address the multimodal task of stereo sound event localization and detection with source distance estimation (3D SELD) in regular video content. 3D SELD is a complex task that combines temporal event classification with spatial localization, requiring reasoning across spatial, temporal, and semantic dimensions. The last is arguably the most challenging to model. Traditional SELD approaches typically rely on multichannel input, limiting their capacity to benefit from large-scale pre-training due to data constraints. To overcome this, we enhance a standard SELD architecture with semantic information by integrating pre-trained, contrastive language-aligned models: CLAP for audio and OWL-ViT for visual inputs. These embeddings are incorporated into a modified Conformer module tailored for multimodal fusion, which we refer to as the Cross-Modal Conformer. We perform an ablation study on the development set of the DCASE2025 Task3 Stereo SELD Dataset to assess the individual contributions of the language-aligned models and benchmark against the DCASE Task 3 baseline systems. Additionally, we detail the curation process of large synthetic audio and audio-visual datasets used for model pre-training. These datasets were further expanded through left-right channel swapping augmentation. Our approach, combining extensive pre-training, model ensembling, and visual post-processing, achieved second rank in the DCASE 2025 Challenge Task 3 (Track B), underscoring the effectiveness of our method. Future work will explore the modality-specific contributions and architectural refinements.
- Abstract(参考訳): 本研究では,通常のビデオコンテンツにおけるステレオ音声イベントの定位と音源距離推定(3D SELD)による検出のマルチモーダルタスクについて検討する。
3D SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元の推論を必要とする。
最後に挙げるのは、おそらく最も難しいモデルだろう。
従来のSELDアプローチは一般的にマルチチャネル入力に依存しており、データ制約による大規模な事前トレーニングの恩恵を受けるために、その能力を制限する。
そこで本研究では,音声のCLAPと視覚入力のOWL-ViTという,事前学習されたコントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを改良する。
これらの埋め込みはマルチモーダル融合に適した修正されたコンバータモジュールに組み込まれ、これをクロスモーダル・コンバータと呼ぶ。
我々は,DCASE2025 Task3 Stereo SELD Datasetの開発セットについて,DCASEタスク3ベースラインシステムに対する言語対応モデルの個々のコントリビューションとベンチマークの評価を行う。
さらに,モデル事前学習に用いる大規模合成音声および音声視覚データセットのキュレーションプロセスについて詳述する。
これらのデータセットは、左チャネルスワップ拡張によってさらに拡張された。
提案手法は,広範囲な事前学習,モデルアンサンブル,視覚的後処理を組み合わせ,DCASE 2025 Challenge Task 3 (Track B) で第2位を獲得し,本手法の有効性を実証した。
今後の研究は、モダリティ固有の貢献とアーキテクチャの洗練を探求する。
関連論文リスト
- Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos [3.2472293599354596]
本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection in regular Video Contentの音声のみおよび音声視覚トラックに提案するシステムについて述べる。
SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。
そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
論文 参考訳(メタデータ) (2025-07-07T10:08:57Z) - An Experimental Study on Joint Modeling for Sound Event Localization and Detection with Source Distance Estimation [3.2637535969755858]
3D SELDタスクは、ソース距離推定を統合することで制限に対処する。
本稿では,この課題に対処するための3つのアプローチを提案する。
提案手法は,DCASE 2024 Challenge Task 3において,関節モデリングの有効性を実証した。
論文 参考訳(メタデータ) (2025-01-18T12:57:21Z) - A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。
第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。
第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。
我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文 参考訳(メタデータ) (2024-08-05T05:33:59Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。