論文の概要: Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes
- arxiv url: http://arxiv.org/abs/2203.13412v1
- Date: Fri, 25 Mar 2022 01:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:34:05.771564
- Title: Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes
- Title(参考訳): 自己監督型予測学習:視覚場面における音源定位の否定的自由化手法
- Authors: Zengjie Song, Yuxi Wang, Junsong Fan, Tieniu Tan, Zhaoxiang Zhang
- Abstract要約: 自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 91.59435809457659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound source localization in visual scenes aims to localize objects emitting
the sound in a given image. Recent works showing impressive localization
performance typically rely on the contrastive learning framework. However, the
random sampling of negatives, as commonly adopted in these methods, can result
in misalignment between audio and visual features and thus inducing ambiguity
in localization. In this paper, instead of following previous literature, we
propose Self-Supervised Predictive Learning (SSPL), a negative-free method for
sound localization via explicit positive mining. Specifically, we first devise
a three-stream network to elegantly associate sound source with two augmented
views of one corresponding video frame, leading to semantically coherent
similarities between audio and visual features. Second, we introduce a novel
predictive coding module for audio-visual feature alignment. Such a module
assists SSPL to focus on target objects in a progressive manner and effectively
lowers the positive-pair learning difficulty. Experiments show surprising
results that SSPL outperforms the state-of-the-art approach on two standard
sound localization benchmarks. In particular, SSPL achieves significant
improvements of 8.6% cIoU and 3.4% AUC on SoundNet-Flickr compared to the
previous best. Code is available at: https://github.com/zjsong/SSPL.
- Abstract(参考訳): 視覚シーンにおける音源定位は、所定の画像内の音を放射する物体を局所化することを目的としている。
印象的なローカライゼーションのパフォーマンスを示す最近の作品は、通常、コントラスト学習フレームワークに依存している。
しかし、これらの手法で一般的に採用されているランダムな負のサンプリングは、音声特徴と視覚特徴の相違を招き、局所化の曖昧さを引き起こす可能性がある。
本稿では,従来の文献に従わず,明示的な正のマイニングによる音像定位法である自己監督予測学習(SSPL)を提案する。
具体的には,まず1つのビデオフレームの2つの拡張ビューに音源を優雅に関連付ける3ストリームネットワークを考案し,音声と視覚的特徴のセマンティックコヒーレントな類似性をもたらす。
第2に,音声・視覚機能アライメントのための新しい予測符号化モジュールを提案する。
このようなモジュールはSSPLがプログレッシブな方法で対象物に集中するのを補助し、ポジティブペア学習の困難を効果的に軽減する。
実験の結果、SSPLは2つの標準音像定位ベンチマークにおいて最先端の手法よりも優れていることがわかった。
特に、SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
コードは、https://github.com/zjsong/SSPL.comで入手できる。
関連論文リスト
- Enhancing Sound Source Localization via False Negative Elimination [58.87973081084927]
音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。
印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。
本稿では,2つの個別学習方式を取り入れた新しい音声視覚学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T11:24:51Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning [39.890616126301204]
偽陰性サンプルによるトレーニングを誤解させる問題を軽減するために,False Negative Aware Contrastive (FNAC) という新たな学習戦略を提案する。
FNACはFlickr-SoundNet、VGG-Sound、AVSBenchで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-20T17:41:11Z) - A Closer Look at Weakly-Supervised Audio-Visual Source Localization [26.828874753756523]
映像中の視覚的音源の位置を予測することを目的とした,視覚的音源の定位化が課題である。
負のサンプルを含むために、人気のあるベンチマークであるFlickr SoundNetとVGG-Sound Sourcesを拡張します。
また,これら2つの問題に対処する視覚的音源定位のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-30T14:17:46Z) - Localizing Visual Sounds the Easy Way [26.828874753756523]
教師なし音声-視覚的音源の定位は,映像中の可視音源の定位化を目的としている。
トレーニング中に正および負の領域を構築することに頼ることなく,EZ-VSLを提案する。
本フレームワークは,Flickr SoundNet と VGG-Sound Source の2つのベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-17T13:52:58Z) - Learning Sound Localization Better From Semantically Similar Samples [79.47083330766002]
既存のオーディオ・ヴィジュアル・ワークでは、正のソースから対応するオーディオ・ヴィジュアル・ペアを割り当て、ランダムに一致しないペアを負のソースに割り当てることで、コントラスト学習を採用している。
私たちの重要な貢献は、ハードポジトリが対応するペアに同様の応答マップを提供することを示すことです。
本稿では,VGG-SSおよびSoundNet-Flickrテストセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-02-07T08:53:55Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Multiple Sound Sources Localization from Coarse to Fine [41.56420350529494]
制約のないビデオで複数の音源を視覚的にローカライズする方法は、非常に難しい問題だ。
複雑なシーンから異なるカテゴリの音声と視覚の表現を分離する2段階の音声視覚学習フレームワークを開発した。
本モデルでは, ローカライゼーションのパブリックデータセット上で, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T12:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。