論文の概要: Object-aware Sound Source Localization via Audio-Visual Scene Understanding
- arxiv url: http://arxiv.org/abs/2506.18557v1
- Date: Mon, 23 Jun 2025 12:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.969933
- Title: Object-aware Sound Source Localization via Audio-Visual Scene Understanding
- Title(参考訳): 映像映像理解による物体認識音源定位
- Authors: Sung Jin Um, Dongjin Kim, Sangmin Lee, Jung Uk Kim,
- Abstract要約: 既存の手法は複雑な場面における音像の正確な位置決めに苦慮している。
この制限は、主に単純な音声と視覚の対応に依存することから生じる。
マルチモーダル大言語モデルを利用した新しい音源定位フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.801564966406486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual sound source localization task aims to spatially localize sound-making objects within visual scenes by integrating visual and audio cues. However, existing methods struggle with accurately localizing sound-making objects in complex scenes, particularly when visually similar silent objects coexist. This limitation arises primarily from their reliance on simple audio-visual correspondence, which does not capture fine-grained semantic differences between sound-making and silent objects. To address these challenges, we propose a novel sound source localization framework leveraging Multimodal Large Language Models (MLLMs) to generate detailed contextual information that explicitly distinguishes between sound-making foreground objects and silent background objects. To effectively integrate this detailed information, we introduce two novel loss functions: Object-aware Contrastive Alignment (OCA) loss and Object Region Isolation (ORI) loss. Extensive experimental results on MUSIC and VGGSound datasets demonstrate the effectiveness of our approach, significantly outperforming existing methods in both single-source and multi-source localization scenarios. Code and generated detailed contextual information are available at: https://github.com/VisualAIKHU/OA-SSL.
- Abstract(参考訳): 音声-視覚的音源定位タスクは、視覚的・音声的手がかりを統合することで、視覚的シーン内の音像を空間的に局所化することを目的としている。
しかし、既存の手法では、複雑なシーンにおいて、特に視覚的に類似したサイレントオブジェクトが共存する場合には、音像の正確な位置決めに苦慮している。
この制限は主に、音の作り方とサイレントオブジェクトの微妙な意味的差異を捉えない、単純な音声と視覚の対応に依存することから生じる。
これらの課題に対処するために,マルチモーダル大言語モデル(MLLM)を利用した新しい音源定位フレームワークを提案する。
この詳細情報を効果的に統合するために、オブジェクト指向コントラストアライメント(OCA)損失とオブジェクト領域分離(ORI)損失の2つの新しい損失関数を導入する。
MUSICおよびVGGSoundデータセットの大規模な実験結果から,本手法の有効性が示され,単一ソースおよび複数ソースのローカライゼーションシナリオにおいて既存手法よりも有意に優れていた。
コードと生成された詳細なコンテキスト情報は、https://github.com/VisualAIKHU/OA-SSLで確認できる。
関連論文リスト
- Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T06:27:50Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。