論文の概要: Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2303.11302v2
- Date: Sat, 25 Mar 2023 13:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 23:28:23.524294
- Title: Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning
- Title(参考訳): False Negative Aware Contrastive Learning を用いたオーディオ・ビジュアル・ソース・ローカライゼーションの学習
- Authors: Weixuan Sun and Jiayi Zhang and Jianyuan Wang and Zheyuan Liu and
Yiran Zhong and Tianpeng Feng and Yandong Guo and Yanhao Zhang and Nick
Barnes
- Abstract要約: 偽陰性サンプルによるトレーニングを誤解させる問題を軽減するために,False Negative Aware Contrastive (FNAC) という新たな学習戦略を提案する。
FNACはFlickr-SoundNet、VGG-Sound、AVSBenchで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 39.890616126301204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised audio-visual source localization aims to locate sound-source
objects in video frames without extra annotations. Recent methods often
approach this goal with the help of contrastive learning, which assumes only
the audio and visual contents from the same video are positive samples for each
other. However, this assumption would suffer from false negative samples in
real-world training. For example, for an audio sample, treating the frames from
the same audio class as negative samples may mislead the model and therefore
harm the learned representations e.g., the audio of a siren wailing may
reasonably correspond to the ambulances in multiple images). Based on this
observation, we propose a new learning strategy named False Negative Aware
Contrastive (FNAC) to mitigate the problem of misleading the training with such
false negative samples. Specifically, we utilize the intra-modal similarities
to identify potentially similar samples and construct corresponding adjacency
matrices to guide contrastive learning. Further, we propose to strengthen the
role of true negative samples by explicitly leveraging the visual features of
sound sources to facilitate the differentiation of authentic sounding source
regions. FNAC achieves state-of-the-art performances on Flickr-SoundNet,
VGG-Sound, and AVSBench, which demonstrates the effectiveness of our method in
mitigating the false negative issue. The code is available at
\url{https://github.com/OpenNLPLab/FNAC_AVL}.
- Abstract(参考訳): self-supervised audio-visual source localizationは、追加のアノテーションなしでビデオフレーム内の音源オブジェクトを見つけることを目的としている。
最近の手法では、同じビデオの音声と視覚のみが互いに正のサンプルであると仮定したコントラスト学習の助けを借りて、この目標にしばしばアプローチしている。
しかし、この仮定は現実世界のトレーニングにおいて誤った負のサンプルに悩まされる。
例えば、オーディオサンプルの場合、同じオーディオクラスのフレームを負のサンプルとして扱うと、モデルを誤解させ、学習された表現を傷つける可能性がある。
そこで本研究では,このような偽陰性サンプルを用いた学習を誤解させる問題を軽減すべく,fnac(false negative aware contrastive)という新しい学習戦略を提案する。
具体的には、モーダル内類似性を利用して、潜在的に類似するサンプルを同定し、それに対応する隣接行列を構築し、コントラスト学習を導く。
さらに,音源の視覚的特徴を明示的に活用し,真正な音源領域の分化を促進することにより,真負のサンプルの役割を強化することを提案する。
FNACはFlickr-SoundNet, VGG-Sound, AVSBenchの最先端性能を実現し, 偽陰性問題を緩和する手法の有効性を実証する。
コードは \url{https://github.com/opennlplab/fnac_avl} で入手できる。
関連論文リスト
- Enhancing Sound Source Localization via False Negative Elimination [58.87973081084927]
音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。
印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。
本稿では,2つの個別学習方式を取り入れた新しい音声視覚学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T11:24:51Z) - MarginNCE: Robust Sound Localization with a Negative Margin [23.908770938403503]
本研究の目的は,自己教師型アプローチによる視覚シーンにおける音源のローカライズである。
コントラスト学習において、より厳密な決定境界を用いることで、音源定位における雑音対応の効果を軽減できることを示す。
論文 参考訳(メタデータ) (2022-11-03T16:44:14Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Learning Sound Localization Better From Semantically Similar Samples [79.47083330766002]
既存のオーディオ・ヴィジュアル・ワークでは、正のソースから対応するオーディオ・ヴィジュアル・ペアを割り当て、ランダムに一致しないペアを負のソースに割り当てることで、コントラスト学習を採用している。
私たちの重要な貢献は、ハードポジトリが対応するペアに同様の応答マップを提供することを示すことです。
本稿では,VGG-SSおよびSoundNet-Flickrテストセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-02-07T08:53:55Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。