論文の概要: Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation
- arxiv url: http://arxiv.org/abs/2410.22271v1
- Date: Tue, 29 Oct 2024 17:28:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:12.675105
- Title: Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation
- Title(参考訳): 音響イベント定位と距離推定による検出のための残響と視覚深度キューの活用
- Authors: Davide Berghi, Philip J. B. Jackson,
- Abstract要約: 本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声イベントの定位と検出を行うシステムについて述べる。
本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。
このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
- 参考スコア(独自算出の注目度): 3.2472293599354596
- License:
- Abstract: This report describes our systems submitted for the DCASE2024 Task 3 challenge: Audio and Audiovisual Sound Event Localization and Detection with Source Distance Estimation (Track B). Our main model is based on the audio-visual (AV) Conformer, which processes video and audio embeddings extracted with ResNet50 and with an audio encoder pre-trained on SELD, respectively. This model outperformed the audio-visual baseline of the development set of the STARSS23 dataset by a wide margin, halving its DOAE and improving the F1 by more than 3x. Our second system performs a temporal ensemble from the outputs of the AV-Conformer. We then extended the model with features for distance estimation, such as direct and reverberant signal components extracted from the omnidirectional audio channel, and depth maps extracted from the video frames. While the new system improved the RDE of our previous model by about 3 percentage points, it achieved a lower F1 score. This may be caused by sound classes that rarely appear in the training set and that the more complex system does not detect, as analysis can determine. To overcome this problem, our fourth and final system consists of an ensemble strategy combining the predictions of the other three. Many opportunities to refine the system and training strategy can be tested in future ablation experiments, and likely achieve incremental performance gains for this audio-visual task.
- Abstract(参考訳): 本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声のイベント位置推定と検出を行うシステムについて述べる。
本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。
このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
第2のシステムは,AVコンバータの出力から時間アンサンブルを行う。
次に、全方向オーディオチャンネルから抽出した直接・残響信号成分や、ビデオフレームから抽出した深度マップなど、距離推定機能を備えたモデルを拡張した。
新たなシステムでは,前モデルのRDEを約3ポイント改善したが,F1スコアは低かった。
これは、トレーニングセットにはほとんど現れず、分析が決定できるようなより複雑なシステムが検出できないサウンドクラスによって引き起こされる可能性がある。
この問題を解決するために,第4および第4のシステムは,他の3つの予測を組み合わせたアンサンブル戦略から構成される。
将来のアブレーション実験でシステムの改良とトレーニング戦略をテストできる多くの機会があり、このオーディオ視覚タスクでは漸進的なパフォーマンス向上が達成される可能性が高い。
関連論文リスト
- Deepfake Audio Detection Using Spectrogram-based Feature and Ensemble of Deep Learning Models [42.39774323584976]
本稿では,ディープフェイク音声検出作業のためのディープラーニングベースシステムを提案する。
特に、ドロー入力オーディオは、まず様々なスペクトログラムに変換される。
我々は、Whisper、Seamless、Speechbrain、Pyannoteといった最先端のオーディオ事前訓練モデルを利用して、オーディオ埋め込みを抽出する。
論文 参考訳(メタデータ) (2024-07-01T20:10:43Z) - The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023 [11.64675515432159]
視覚的特徴と音声的特徴を組み合わせるために,マルチモーダル融合方式を用いる。
最先端の自己教師付き事前学習ネットワークを用いて高品質な視覚特徴を抽出する。
同時に、音声機能は、モデルが音の開始と終了をよりよくローカライズするのに役立つ補完的な情報として機能する。
論文 参考訳(メタデータ) (2024-07-01T12:52:05Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。