論文の概要: Enhanced Sound Event Localization and Detection in Real 360-degree
audio-visual soundscapes
- arxiv url: http://arxiv.org/abs/2401.17129v1
- Date: Mon, 29 Jan 2024 06:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:19:09.220572
- Title: Enhanced Sound Event Localization and Detection in Real 360-degree
audio-visual soundscapes
- Title(参考訳): リアル360度オーディオ映像における音事象の局所化と検出
- Authors: Adrian S. Roman, Baladithya Balamurugan, Rithik Pothuganti
- Abstract要約: 我々は、音声のみのSELDnet23モデルを構築し、オーディオ情報と映像情報を融合してオーディオ視覚に適応する。
また,音声-視覚データ拡張と音声-視覚合成データ生成を実現するフレームワークを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report details our work towards building an enhanced
audio-visual sound event localization and detection (SELD) network. We build on
top of the audio-only SELDnet23 model and adapt it to be audio-visual by
merging both audio and video information prior to the gated recurrent unit
(GRU) of the audio-only network. Our model leverages YOLO and DETIC object
detectors. We also build a framework that implements audio-visual data
augmentation and audio-visual synthetic data generation. We deliver an
audio-visual SELDnet system that outperforms the existing audio-visual SELD
baseline.
- Abstract(参考訳): 本報告では,seld(audio-visual sound event localization and detection)ネットワークの構築に向けた取り組みについて述べる。
音声のみのsuldnet23モデル上に構築し,音声のみのネットワークのゲートリカレントユニット(gru)に先立って,音声情報と映像情報を融合することにより,音声視認性を実現する。
我々のモデルは、YOLOとDeTICオブジェクト検出器を利用する。
また,音声-視覚データ拡張と音声-視覚合成データ生成を実現するフレームワークを構築した。
我々は既存の音声視覚SELDベースラインよりも優れた音声視覚SELDnetシステムを提供する。
関連論文リスト
- Siamese Vision Transformers are Scalable Audio-visual Learners [19.916919837694802]
本稿では,AVSiam(Audio-visual siamese Network)を用いて,高能率かつスケーラブルな視覚前訓練を行う。
我々のフレームワークは、単一の共有視覚変換器のバックボーンを使用して、音声および視覚入力を処理する。
音声,視覚,視覚の入力を単一の共有VTバックボーンで頑健に処理できる。
論文 参考訳(メタデータ) (2024-03-28T17:52:24Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events [30.459545240265246]
音のイベントは通常、視覚的に源となる物体、例えば歩行器の足から発生する音に由来する。
本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。
オーディオ視覚SELDシステムは、アレーからの信号とオーディオ視覚対応を使って、音イベントを検出し、ローカライズすることができる。
論文 参考訳(メタデータ) (2023-06-15T13:37:14Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。