Fugu-MT 論文翻訳(概要): Object-aware Sound Source Localization via Audio-Visual Scene Understanding

論文の概要: Object-aware Sound Source Localization via Audio-Visual Scene Understanding

arxiv url: http://arxiv.org/abs/2506.18557v1
Date: Mon, 23 Jun 2025 12:08:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.969933
Title: Object-aware Sound Source Localization via Audio-Visual Scene Understanding
Title（参考訳）: 映像映像理解による物体認識音源定位
Authors: Sung Jin Um, Dongjin Kim, Sangmin Lee, Jung Uk Kim,
Abstract要約: 既存の手法は複雑な場面における音像の正確な位置決めに苦慮している。この制限は、主に単純な音声と視覚の対応に依存することから生じる。マルチモーダル大言語モデルを利用した新しい音源定位フレームワークを提案する。
参考スコア（独自算出の注目度）: 14.801564966406486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-visual sound source localization task aims to spatially localize sound-making objects within visual scenes by integrating visual and audio cues. However, existing methods struggle with accurately localizing sound-making objects in complex scenes, particularly when visually similar silent objects coexist. This limitation arises primarily from their reliance on simple audio-visual correspondence, which does not capture fine-grained semantic differences between sound-making and silent objects. To address these challenges, we propose a novel sound source localization framework leveraging Multimodal Large Language Models (MLLMs) to generate detailed contextual information that explicitly distinguishes between sound-making foreground objects and silent background objects. To effectively integrate this detailed information, we introduce two novel loss functions: Object-aware Contrastive Alignment (OCA) loss and Object Region Isolation (ORI) loss. Extensive experimental results on MUSIC and VGGSound datasets demonstrate the effectiveness of our approach, significantly outperforming existing methods in both single-source and multi-source localization scenarios. Code and generated detailed contextual information are available at: https://github.com/VisualAIKHU/OA-SSL.
Abstract（参考訳）: 音声-視覚的音源定位タスクは、視覚的・音声的手がかりを統合することで、視覚的シーン内の音像を空間的に局所化することを目的としている。しかし、既存の手法では、複雑なシーンにおいて、特に視覚的に類似したサイレントオブジェクトが共存する場合には、音像の正確な位置決めに苦慮している。この制限は主に、音の作り方とサイレントオブジェクトの微妙な意味的差異を捉えない、単純な音声と視覚の対応に依存することから生じる。これらの課題に対処するために,マルチモーダル大言語モデル(MLLM)を利用した新しい音源定位フレームワークを提案する。この詳細情報を効果的に統合するために、オブジェクト指向コントラストアライメント(OCA)損失とオブジェクト領域分離(ORI)損失の2つの新しい損失関数を導入する。 MUSICおよびVGGSoundデータセットの大規模な実験結果から,本手法の有効性が示され,単一ソースおよび複数ソースのローカライゼーションシナリオにおいて既存手法よりも有意に優れていた。コードと生成された詳細なコンテキスト情報は、https://github.com/VisualAIKHU/OA-SSLで確認できる。

関連論文リスト

Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文参考訳（メタデータ） (2024-03-26T06:27:50Z)
QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-09-29T20:48:44Z)
Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2023-09-19T16:04:50Z)
Audio-Visual Spatial Integration and Recursive Attention for Robust Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。提案手法はより堅牢な音源定位を実現する。
論文参考訳（メタデータ） (2023-08-11T11:57:58Z)
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文参考訳（メタデータ） (2022-10-28T22:45:41Z)
Visual Sound Localization in the Wild by Cross-Modal Interference Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文参考訳（メタデータ） (2022-02-13T21:06:19Z)
Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文参考訳（メタデータ） (2021-12-22T09:34:33Z)
Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文参考訳（メタデータ） (2021-11-05T14:35:08Z)
Dual Normalization Multitasking for Audio-Visual Sounding Object Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-06-01T02:02:52Z)
Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (2020-10-12T05:51:55Z)
Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文参考訳（メタデータ） (2020-07-13T12:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。