論文の概要: Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing
- arxiv url: http://arxiv.org/abs/2202.06406v1
- Date: Sun, 13 Feb 2022 21:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 18:06:57.837821
- Title: Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing
- Title(参考訳): クロスモーダル干渉消去による野生の視覚音像定位
- Authors: Xian Liu, Rui Qian, Hang Zhou, Di Hu, Weiyao Lin, Ziwei Liu, Bolei
Zhou, Xiaowei Zhou
- Abstract要約: 現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 90.21476231683008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of audio-visual sound source localization has been well studied
under constrained scenes, where the audio recordings are clean. However, in
real-world scenarios, audios are usually contaminated by off-screen sound and
background noise. They will interfere with the procedure of identifying desired
sources and building visual-sound connections, making previous studies
non-applicable. In this work, we propose the Interference Eraser (IEr)
framework, which tackles the problem of audio-visual sound source localization
in the wild. The key idea is to eliminate the interference by redefining and
carving discriminative audio representations. Specifically, we observe that the
previous practice of learning only a single audio representation is
insufficient due to the additive nature of audio signals. We thus extend the
audio representation with our Audio-Instance-Identifier module, which clearly
distinguishes sounding instances when audio signals of different volumes are
unevenly mixed. Then we erase the influence of the audible but off-screen
sounds and the silent but visible objects by a Cross-modal Referrer module with
cross-modality distillation. Quantitative and qualitative evaluations
demonstrate that our proposed framework achieves superior results on sound
localization tasks, especially under real-world scenarios. Code is available at
https://github.com/alvinliu0/Visual-Sound-Localization-in-the-Wild.
- Abstract(参考訳): 音声-視覚的音源定位の課題は、音声録音がクリーンな制約のある場面下でよく研究されている。
しかし、現実のシナリオでは、音声は通常オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
彼らは望ましい情報源を特定し、視覚-聴覚接続を構築する手順を妨害し、以前の研究は適用不可能にする。
本研究では,野生における聴覚・視覚音源の定位問題に対処するintervention eraser(ier)フレームワークを提案する。
鍵となるアイデアは、識別的な音声表現を再定義し彫ることによる干渉を排除することである。
具体的には,単一音声表現のみを学習するという従来の実践は,音声信号の付加的性質のため不十分である。
これにより、異なるボリュームの音声信号が不均一に混合されたときの音響インスタンスを明確に区別できる。
次に, クロスモーダル蒸留を伴うクロスモーダル参照器モジュールにより, 可聴・オフスクリーン音と無声・可視物体の影響を消去する。
定量的および定性的な評価により,提案手法は特に実世界のシナリオにおいて,音像定位タスクにおいて優れた結果が得られることを示す。
コードはhttps://github.com/alvinliu0/Visual-Sound-Localization-in-the-Wildで入手できる。
関連論文リスト
- LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z) - Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。
複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。
本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T12:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。