論文の概要: Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos
- arxiv url: http://arxiv.org/abs/2507.04845v1
- Date: Mon, 07 Jul 2025 10:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.373778
- Title: Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos
- Title(参考訳): ステレオ音声イベントの定位と検出のための空間的・セマンティックな埋め込み統合
- Authors: Davide Berghi, Philip J. B. Jackson,
- Abstract要約: 本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection in regular Video Contentの音声のみおよび音声視覚トラックに提案するシステムについて述べる。
SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。
そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
- 参考スコア(独自算出の注目度): 3.2472293599354596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents our systems submitted to the audio-only and audio-visual tracks of the DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection (SELD) in Regular Video Content. SELD is a complex task that combines temporal event classification with spatial localization, requiring reasoning across spatial, temporal, and semantic dimensions. The last is arguably the most challenging to model. Traditional SELD architectures rely on multichannel input, which limits their ability to leverage large-scale pre-training due to data constraints. To address this, we enhance standard SELD architectures with semantic information by integrating pre-trained, contrastive language-aligned models: CLAP for audio and OWL-ViT for visual inputs. These embeddings are incorporated into a modified Conformer module tailored for multimodal fusion, which we refer to as the Cross-Modal Conformer. Additionally, we incorporate autocorrelation-based acoustic features to improve distance estimation. We pre-train our models on curated synthetic audio and audio-visual datasets and apply a left-right channel swapping augmentation to further increase the training data. Both our audio-only and audio-visual systems substantially outperform the challenge baselines on the development set, demonstrating the effectiveness of our strategy. Performance is further improved through model ensembling and a visual post-processing step based on human keypoints. Future work will investigate the contribution of each modality and explore architectural variants to further enhance results.
- Abstract(参考訳): 本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection (SELD) in regular Video Content の音声のみ及び音声視覚トラックに提案するシステムについて述べる。
SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。
最後に挙げるのは、おそらく最も難しいモデルだろう。
従来のSELDアーキテクチャはマルチチャネル入力に依存しており、データ制約による大規模事前学習の能力を制限している。
そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
これらの埋め込みはマルチモーダル融合に適した修正されたコンバータモジュールに組み込まれ、これをクロスモーダル・コンバータと呼ぶ。
さらに,距離推定を改善するために,自己相関に基づく音響特徴を取り入れた。
我々は、キュレートされた合成オーディオおよびオーディオ視覚データセットのモデルを事前訓練し、トレーニングデータをさらに増やすために、左側チャネルスワップアグメンテーションを適用した。
音声のみのシステムと音声視覚システムの両方が、開発セットにおける課題ベースラインを大幅に上回り、我々の戦略の有効性を実証した。
モデルアンサンブルと、人間のキーポイントに基づいた視覚的な後処理ステップにより、パフォーマンスがさらに向上する。
今後の研究は、各モダリティの貢献を調査し、アーキテクチャの変種を探り、結果をさらに強化する。
関連論文リスト
- Bridging Audio and Vision: Zero-Shot Audiovisual Segmentation by Connecting Pretrained Models [13.63552417613795]
複数の事前学習モデルを活用することでタスク固有のトレーニングを不要にするゼロショットAVSフレームワークを提案する。
提案手法は,音声,視覚,テキスト表現を統合し,AVS固有のアノテーションを使わずに正確な音源分割を可能にする。
論文 参考訳(メタデータ) (2025-06-06T21:06:35Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。
本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:17:25Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。