論文の概要: MarginNCE: Robust Sound Localization with a Negative Margin
- arxiv url: http://arxiv.org/abs/2211.01966v1
- Date: Thu, 3 Nov 2022 16:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 14:28:04.674121
- Title: MarginNCE: Robust Sound Localization with a Negative Margin
- Title(参考訳): MarginNCE: 負のマージンによるロバストな音像定位
- Authors: Sooyoung Park, Arda Senocak, Joon Son Chung
- Abstract要約: 本研究の目的は,自己教師型アプローチによる視覚シーンにおける音源のローカライズである。
コントラスト学習において、より厳密な決定境界を用いることで、音源定位における雑音対応の効果を軽減できることを示す。
- 参考スコア(独自算出の注目度): 23.908770938403503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this work is to localize sound sources in visual scenes with a
self-supervised approach. Contrastive learning in the context of sound source
localization leverages the natural correspondence between audio and visual
signals where the audio-visual pairs from the same source are assumed as
positive, while randomly selected pairs are negatives. However, this approach
brings in noisy correspondences; for example, positive audio and visual pair
signals that may be unrelated to each other, or negative pairs that may contain
semantically similar samples to the positive one. Our key contribution in this
work is to show that using a less strict decision boundary in contrastive
learning can alleviate the effect of noisy correspondences in sound source
localization. We propose a simple yet effective approach by slightly modifying
the contrastive loss with a negative margin. Extensive experimental results
show that our approach gives on-par or better performance than the
state-of-the-art methods. Furthermore, we demonstrate that the introduction of
a negative margin to existing methods results in a consistent improvement in
performance.
- Abstract(参考訳): この研究の目的は、視覚シーンの音源を自己監視アプローチでローカライズすることである。
音源定位の文脈におけるコントラスト学習は、同じ音源からの音声と視覚のペアを正と仮定する音声と視覚信号の自然な対応を利用しており、ランダムに選択されたペアは負である。
しかし、このアプローチはノイズの多い対応をもたらし、例えば、互いに無関係な正の音声と視覚のペア信号、あるいは正のペアと意味論的に類似したサンプルを含む負のペアなどである。
この研究における重要な貢献は、コントラスト学習におけるより厳密な決定境界を用いることで、音源定位における雑音対応の効果を緩和できることである。
我々は,コントラスト損失を負のマージンでわずかに修正することにより,単純かつ効果的なアプローチを提案する。
実験結果から,本手法は最先端手法よりも高い性能を示した。
さらに,既存の手法に負のマージンを導入することで,性能が一貫した改善をもたらすことを示す。
関連論文リスト
- Enhancing Sound Source Localization via False Negative Elimination [58.87973081084927]
音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。
印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。
本稿では,2つの個別学習方式を取り入れた新しい音声視覚学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T11:24:51Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning [39.890616126301204]
偽陰性サンプルによるトレーニングを誤解させる問題を軽減するために,False Negative Aware Contrastive (FNAC) という新たな学習戦略を提案する。
FNACはFlickr-SoundNet、VGG-Sound、AVSBenchで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-20T17:41:11Z) - Unsupervised Voice-Face Representation Learning by Cross-Modal Prototype
Contrast [34.58856143210749]
同一性ラベルを使わずに,音声映像から音声表現を学習する手法を提案する。
これまでの研究では、音声と顔の相関を確立するために、クロスモーダルなインスタンス識別タスクが用いられてきた。
比較手法を生かし, 偽陰性の悪影響に抵抗し, 正の逸脱に抵抗するクロスモーダル・プロトタイプ・コントラッシブ・ラーニング(CMPC)を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:28:56Z) - Learning Sound Localization Better From Semantically Similar Samples [79.47083330766002]
既存のオーディオ・ヴィジュアル・ワークでは、正のソースから対応するオーディオ・ヴィジュアル・ペアを割り当て、ランダムに一致しないペアを負のソースに割り当てることで、コントラスト学習を採用している。
私たちの重要な貢献は、ハードポジトリが対応するペアに同様の応答マップを提供することを示すことです。
本稿では,VGG-SSおよびSoundNet-Flickrテストセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-02-07T08:53:55Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。