論文の概要: Learning from Silence and Noise for Visual Sound Source Localization
- arxiv url: http://arxiv.org/abs/2508.21761v1
- Date: Fri, 29 Aug 2025 16:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.113057
- Title: Learning from Silence and Noise for Visual Sound Source Localization
- Title(参考訳): 視覚音源定位のためのサイレンスとノイズからの学習
- Authors: Xavier Juanola, Giovana Morais, Magdalena Fuentes, Gloria Haro,
- Abstract要約: 本研究は, 雑音と静音を取り入れた新たな学習手法を提案し, 負の音に対してより頑健でありながら, 肯定的な場合のパフォーマンスを向上させる。
我々の自己教師型モデルであるSSL-SaNは、他の自己教師型モデルと比較して最先端のパフォーマンスを達成する。
否定音声を用いたIS3合成データセットの拡張および改良版IS3+を提案する。
- 参考スコア(独自算出の注目度): 10.906490052260189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual sound source localization is a fundamental perception task that aims to detect the location of sounding sources in a video given its audio. Despite recent progress, we identify two shortcomings in current methods: 1) most approaches perform poorly in cases with low audio-visual semantic correspondence such as silence, noise, and offscreen sounds, i.e. in the presence of negative audio; and 2) most prior evaluations are limited to positive cases, where both datasets and metrics convey scenarios with a single visible sound source in the scene. To address this, we introduce three key contributions. First, we propose a new training strategy that incorporates silence and noise, which improves performance in positive cases, while being more robust against negative sounds. Our resulting self-supervised model, SSL-SaN, achieves state-of-the-art performance compared to other self-supervised models, both in sound localization and cross-modal retrieval. Second, we propose a new metric that quantifies the trade-off between alignment and separability of auditory and visual features across positive and negative audio-visual pairs. Third, we present IS3+, an extended and improved version of the IS3 synthetic dataset with negative audio. Our data, metrics and code are available on the https://xavijuanola.github.io/SSL-SaN/.
- Abstract(参考訳): 視覚的音源定位は,映像中の音源の位置を検出することを目的とした基本的な知覚課題である。
最近の進歩にもかかわらず、現在の方法には2つの欠点がある。
1)ほとんどのアプローチは、サイレント、ノイズ、オフスクリーン音などの低音・視覚的意味的対応、すなわち陰音の存在下では不十分である。
2) 先行評価のほとんどは, 現場に1つの可視的音源を持つシナリオを, データセットとメトリクスの両方が伝達する, 肯定的な事例に限られる。
これを解決するために,3つの重要なコントリビューションを紹介します。
まず,否定音に対して頑健でありながら,肯定的な場合の性能向上を図るため,沈黙と雑音を取り入れた新たなトレーニング戦略を提案する。
我々の自己教師型モデルであるSSL-SaNは、音像定位とクロスモーダル検索の両方において、他の自己教師型モデルと比較して最先端の性能を達成する。
第2に,聴覚・視覚的特徴のアライメントと分離性のトレードオフを正と負の音響・視覚的ペア間で定量化する手法を提案する。
第3に,否定音声を用いたIS3合成データセットの拡張および改良版IS3+を提案する。
私たちのデータ、メトリクス、コードはhttps://xavijuanola.github.io/SSL-SaN/で公開されています。
関連論文リスト
- A Critical Assessment of Visual Sound Source Localization Models Including Negative Audio [5.728456310555323]
本稿では,Visual Sound Source のローカライゼーションモデルの標準評価を達成すべく,新しいテストセットとメトリクスを提案する。
我々は、沈黙、騒音、オフスクリーンの3種類の否定的オーディオについて検討している。
分析の結果,多くのSOTAモデルでは,音声入力に基づいて予測を適切に調整できないことがわかった。
論文 参考訳(メタデータ) (2024-10-01T19:28:45Z) - Enhancing Sound Source Localization via False Negative Elimination [58.87973081084927]
音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。
印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。
本稿では,2つの個別学習方式を取り入れた新しい音声視覚学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T11:24:51Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - A Closer Look at Weakly-Supervised Audio-Visual Source Localization [26.828874753756523]
映像中の視覚的音源の位置を予測することを目的とした,視覚的音源の定位化が課題である。
負のサンプルを含むために、人気のあるベンチマークであるFlickr SoundNetとVGG-Sound Sourcesを拡張します。
また,これら2つの問題に対処する視覚的音源定位のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-30T14:17:46Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。