論文の概要: Improving Sound Source Localization with Joint Slot Attention on Image and Audio
- arxiv url: http://arxiv.org/abs/2504.15118v1
- Date: Mon, 21 Apr 2025 14:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 14:57:57.221401
- Title: Improving Sound Source Localization with Joint Slot Attention on Image and Audio
- Title(参考訳): 画像とオーディオにおけるジョイントスロットアテンションによる音源定位の改善
- Authors: Inho Kim, Youngkil Song, Jicheol Park, Won Hwa Kim, Suha Kwak,
- Abstract要約: サウンドソースローカライゼーション(SSL)は、画像内の音源を特定するタスクである。
以前の作業では、画像埋め込みとしてローカル画像の特徴の1つをサンプリングし、すべてのローカルオーディオ特徴を集約してオーディオ埋め込みを得る。
本稿では,画像と音声の接続スロットアテンションにより,この慢性的な問題に対処する新しいSSL手法を提案する。
- 参考スコア(独自算出の注目度): 24.922273090257264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound source localization (SSL) is the task of locating the source of sound within an image. Due to the lack of localization labels, the de facto standard in SSL has been to represent an image and audio as a single embedding vector each, and use them to learn SSL via contrastive learning. To this end, previous work samples one of local image features as the image embedding and aggregates all local audio features to obtain the audio embedding, which is far from optimal due to the presence of noise and background irrelevant to the actual target in the input. We present a novel SSL method that addresses this chronic issue by joint slot attention on image and audio. To be specific, two slots competitively attend image and audio features to decompose them into target and off-target representations, and only target representations of image and audio are used for contrastive learning. Also, we introduce cross-modal attention matching to further align local features of image and audio. Our method achieved the best in almost all settings on three public benchmarks for SSL, and substantially outperformed all the prior work in cross-modal retrieval.
- Abstract(参考訳): サウンドソースローカライゼーション(SSL)は、画像内の音源を特定するタスクである。
ローカライゼーションラベルがないため、SSLのデファクトスタンダードはイメージとオーディオをそれぞれ単一の埋め込みベクタとして表現し、コントラスト学習を通じてSSLを学習することであった。
この目的のために、以前の作業では、画像埋め込みとしてローカルな特徴の1つをサンプリングし、全てのローカルなオーディオ特徴を集約してオーディオ埋め込みを得るが、これは入力の実際のターゲットとは無関係なノイズや背景が存在するため、最適ではない。
本稿では,画像と音声の接続スロットアテンションにより,この慢性的な問題に対処する新しいSSL手法を提案する。
具体的には、2つのスロットが画像と音声の特徴に競合してターゲットとオフターゲットの表現に分解し、画像とオーディオのターゲット表現のみがコントラスト学習に使用される。
また、画像と音声の局所的特徴を更に整合させるために、モーダル間アテンションマッチングを導入する。
提案手法はSSLの3つの公開ベンチマークにおいて,ほぼすべての設定において最高の結果を得た。
関連論文リスト
- Multi-scale Multi-instance Visual Sound Localization and Segmentation [15.624453757710802]
本稿では,M2VSLという新しいマルチスケール視覚音像定位フレームワークを提案する。
M2VSLは入力画像から音源に関連するマルチスケール意味的特徴を学習し,音像の局所化を行う。
我々は,VGGSound-Instruments,VGG-Sound Sources,AVSBenchベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-08-31T15:43:22Z) - Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。
音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-25T04:56:08Z) - Can CLIP Help Sound Source Localization? [19.370071553914954]
音声信号をCLIPのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。
これらの埋め込みを直接利用することにより,提案手法は提供音声のための音声グラウンドマスクを生成する。
この結果から,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T15:26:57Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - A Unified Audio-Visual Learning Framework for Localization, Separation,
and Recognition [26.828874753756523]
本研究では,統合型音声視覚学習フレームワーク(OneAVM)を提案する。
OneAVMは、共有オーディオ視覚エンコーダと3つの目標でトレーニングされたタスク固有のデコーダで構成される。
MUSIC、VGG-Instruments、VGG-Music、VGGSoundデータセットの実験では、3つのタスクすべてに対してOneAVMの有効性が示されている。
論文 参考訳(メタデータ) (2023-05-30T23:53:12Z) - LISA: Localized Image Stylization with Audio via Implicit Neural
Representation [17.672008998994816]
LISA(Localized Image Stylization with Audio)という新しいフレームワークを提案する。
LISAは、オーディオ駆動のローカライズされたイメージスタイリングを実行する。
提案手法は,他の音声誘導方式よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-21T11:51:48Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。