論文の概要: Enhancing Sound Source Localization via False Negative Elimination
- arxiv url: http://arxiv.org/abs/2408.16448v1
- Date: Thu, 29 Aug 2024 11:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:02:47.174781
- Title: Enhancing Sound Source Localization via False Negative Elimination
- Title(参考訳): 偽陰性除去による音源定位の強化
- Authors: Zengjie Song, Jiangshe Zhang, Yuxi Wang, Junsong Fan, Zhaoxiang Zhang,
- Abstract要約: 音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。
印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。
本稿では,2つの個別学習方式を取り入れた新しい音声視覚学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 58.87973081084927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound source localization aims to localize objects emitting the sound in visual scenes. Recent works obtaining impressive results typically rely on contrastive learning. However, the common practice of randomly sampling negatives in prior arts can lead to the false negative issue, where the sounds semantically similar to visual instance are sampled as negatives and incorrectly pushed away from the visual anchor/query. As a result, this misalignment of audio and visual features could yield inferior performance. To address this issue, we propose a novel audio-visual learning framework which is instantiated with two individual learning schemes: self-supervised predictive learning (SSPL) and semantic-aware contrastive learning (SACL). SSPL explores image-audio positive pairs alone to discover semantically coherent similarities between audio and visual features, while a predictive coding module for feature alignment is introduced to facilitate the positive-only learning. In this regard SSPL acts as a negative-free method to eliminate false negatives. By contrast, SACL is designed to compact visual features and remove false negatives, providing reliable visual anchor and audio negatives for contrast. Different from SSPL, SACL releases the potential of audio-visual contrastive learning, offering an effective alternative to achieve the same goal. Comprehensive experiments demonstrate the superiority of our approach over the state-of-the-arts. Furthermore, we highlight the versatility of the learned representation by extending the approach to audio-visual event classification and object detection tasks. Code and models are available at: https://github.com/zjsong/SACL.
- Abstract(参考訳): 音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。
印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。
しかし、先行技術におけるランダムサンプリングの一般的な実践は、視覚的インスタンスと意味論的に類似した音を陰性としてサンプリングし、視覚的アンカー/クエリから誤って押し出された偽陰性問題に繋がる。
結果として、このオーディオと視覚的特徴の相違は、性能が劣る可能性がある。
この問題に対処するために,自己教師付き予測学習(SSPL)と意味認識型コントラスト学習(SACL)の2つの個別学習スキームをインスタンス化した新しい音声視覚学習フレームワークを提案する。
SSPLは、音声と視覚の特徴のセマンティックコヒーレントな類似性を発見するために、画像と音声の正のペアのみを探索する。
この場合、SSPLは偽陰性を排除するために負のフリーな方法として機能する。
対照的に、SACLは視覚的特徴をコンパクトにし、偽陰性を取り除くように設計されており、コントラストに対して信頼性の高い視覚的アンカーとオーディオ陰性を提供する。
SSPLと異なり、SACLは同じ目標を達成するための効果的な代替手段を提供する。
総合的な実験は、最先端技術に対する我々のアプローチの優位性を実証している。
さらに,音声・視覚的事象分類や物体検出タスクへのアプローチを拡張することで,学習表現の汎用性を強調した。
コードとモデルは、https://github.com/zjsong/SACL.comで入手できる。
関連論文リスト
- Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning [39.890616126301204]
偽陰性サンプルによるトレーニングを誤解させる問題を軽減するために,False Negative Aware Contrastive (FNAC) という新たな学習戦略を提案する。
FNACはFlickr-SoundNet、VGG-Sound、AVSBenchで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-20T17:41:11Z) - Contrastive Positive Sample Propagation along the Audio-Visual Event
Line [24.007548531642716]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
各ビデオセグメントの識別機能を学ぶことは重要である。
そこで本研究では,より深い特徴表現学習を実現するために,新たにCPSP法を提案する。
論文 参考訳(メタデータ) (2022-11-18T01:55:45Z) - MarginNCE: Robust Sound Localization with a Negative Margin [23.908770938403503]
本研究の目的は,自己教師型アプローチによる視覚シーンにおける音源のローカライズである。
コントラスト学習において、より厳密な決定境界を用いることで、音源定位における雑音対応の効果を軽減できることを示す。
論文 参考訳(メタデータ) (2022-11-03T16:44:14Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Learning Sound Localization Better From Semantically Similar Samples [79.47083330766002]
既存のオーディオ・ヴィジュアル・ワークでは、正のソースから対応するオーディオ・ヴィジュアル・ペアを割り当て、ランダムに一致しないペアを負のソースに割り当てることで、コントラスト学習を採用している。
私たちの重要な貢献は、ハードポジトリが対応するペアに同様の応答マップを提供することを示すことです。
本稿では,VGG-SSおよびSoundNet-Flickrテストセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-02-07T08:53:55Z) - FREE: Feature Refinement for Generalized Zero-Shot Learning [86.41074134041394]
汎用ゼロショット学習(GZSL)は、視覚-意味的領域ギャップと目に見えないバイアスの問題を克服するために多くの努力を払って、大きな進歩を遂げた。
既存のほとんどのメソッドはImageNetでトレーニングされた機能抽出モデルを直接使用しており、ImageNetとGZSLベンチマークのデータセット間のバイアスを無視している。
本稿では,この問題に対処するために,汎用ゼロショット学習(FREE)のための特徴改善という,シンプルで効果的なGZSL法を提案する。
論文 参考訳(メタデータ) (2021-07-29T08:11:01Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Whitening for Self-Supervised Representation Learning [129.57407186848917]
本稿では,潜在空間の特徴の白化に基づく自己教師付き表現学習(SSL)のための新しい損失関数を提案する。
我々の解は非対称なネットワークを必要とせず、概念的には単純である。
論文 参考訳(メタデータ) (2020-07-13T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。