論文の概要: Localizing Visual Sounds the Easy Way
- arxiv url: http://arxiv.org/abs/2203.09324v1
- Date: Thu, 17 Mar 2022 13:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:06:01.473551
- Title: Localizing Visual Sounds the Easy Way
- Title(参考訳): 視覚の局所化は簡単な方法です
- Authors: Shentong Mo, Pedro Morgado
- Abstract要約: 教師なし音声-視覚的音源の定位は,映像中の可視音源の定位化を目的としている。
トレーニング中に正および負の領域を構築することに頼ることなく,EZ-VSLを提案する。
本フレームワークは,Flickr SoundNet と VGG-Sound Source の2つのベンチマークにおいて,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 26.828874753756523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised audio-visual source localization aims at localizing visible
sound sources in a video without relying on ground-truth localization for
training. Previous works often seek high audio-visual similarities for likely
positive (sounding) regions and low similarities for likely negative regions.
However, accurately distinguishing between sounding and non-sounding regions is
challenging without manual annotations. In this work, we propose a simple yet
effective approach for Easy Visual Sound Localization, namely EZ-VSL, without
relying on the construction of positive and/or negative regions during
training. Instead, we align audio and visual spaces by seeking audio-visual
representations that are aligned in, at least, one location of the associated
image, while not matching other images, at any location. We also introduce a
novel object guided localization scheme at inference time for improved
precision. Our simple and effective framework achieves state-of-the-art
performance on two popular benchmarks, Flickr SoundNet and VGG-Sound Source. In
particular, we improve the CIoU of the Flickr SoundNet test set from 76.80% to
83.94%, and on the VGG-Sound Source dataset from 34.60% to 38.85%. The code is
available at https://github.com/stoneMo/EZ-VSL.
- Abstract(参考訳): 教師なし音声-視覚的音源定位は,映像中の可視音源の定位化を目的としている。
以前の作品は、おそらく正の(音の)領域に対する高い視聴覚的類似性と、おそらく負の領域に対する低い類似性を求めることが多い。
しかし、音域と非音域の区別は手作業による注釈なしでは困難である。
本研究では,訓練中の正の領域と負の領域の構成に頼らずに,簡易かつ効果的な視覚音像定位手法ez-vslを提案する。
その代わり、任意の場所で他の画像と一致せず、少なくとも関連画像の1つの位置に配置されたオーディオ視覚表現を求めることで、オーディオと視覚空間を整列させる。
また、精度を向上させるために、推論時に新しいオブジェクトガイド型ローカライズ方式を導入する。
我々は,Flickr SoundNet と VGG-Sound Source の2つのベンチマークで最先端のパフォーマンスを実現する。
特に、Flickr SoundNetテストセットのCIoUを76.80%から83.94%に改善し、VGG-Sound Sourceデータセットを34.60%から38.85%に改善しました。
コードはhttps://github.com/stoneMo/EZ-VSLで公開されている。
関連論文リスト
- Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。
音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-25T04:56:08Z) - LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning [39.890616126301204]
偽陰性サンプルによるトレーニングを誤解させる問題を軽減するために,False Negative Aware Contrastive (FNAC) という新たな学習戦略を提案する。
FNACはFlickr-SoundNet、VGG-Sound、AVSBenchで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-20T17:41:11Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。
複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。
本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T12:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。