論文の概要: Learning Sound Localization Better From Semantically Similar Samples
- arxiv url: http://arxiv.org/abs/2202.03007v1
- Date: Mon, 7 Feb 2022 08:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 02:32:02.430106
- Title: Learning Sound Localization Better From Semantically Similar Samples
- Title(参考訳): 意味的に類似したサンプルから音像定位を学ぶ
- Authors: Arda Senocak, Hyeonggon Ryu, Junsik Kim, In So Kweon
- Abstract要約: 既存のオーディオ・ヴィジュアル・ワークでは、正のソースから対応するオーディオ・ヴィジュアル・ペアを割り当て、ランダムに一致しないペアを負のソースに割り当てることで、コントラスト学習を採用している。
私たちの重要な貢献は、ハードポジトリが対応するペアに同様の応答マップを提供することを示すことです。
本稿では,VGG-SSおよびSoundNet-Flickrテストセットに対するアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 79.47083330766002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of this work is to localize the sound sources in visual scenes.
Existing audio-visual works employ contrastive learning by assigning
corresponding audio-visual pairs from the same source as positives while
randomly mismatched pairs as negatives. However, these negative pairs may
contain semantically matched audio-visual information. Thus, these semantically
correlated pairs, "hard positives", are mistakenly grouped as negatives. Our
key contribution is showing that hard positives can give similar response maps
to the corresponding pairs. Our approach incorporates these hard positives by
adding their response maps into a contrastive learning objective directly. We
demonstrate the effectiveness of our approach on VGG-SS and SoundNet-Flickr
test sets, showing favorable performance to the state-of-the-art methods.
- Abstract(参考訳): 本研究の目的は,視覚シーンにおける音源のローカライズである。
既存のオーディオ・ビジュアル作品では、正と同じソースから対応するオーディオとビジュアルのペアを割り当て、ランダムにミスマッチしたペアを負に割り当てて対比学習を行っている。
しかし、これらの負のペアは意味的に一致した音声視覚情報を含むかもしれない。
したがって、これらの意味的相関の組である「強正」は誤って負としてグループ化される。
私たちの重要な貢献は、ハード陽性が対応するペアに同様の応答マップを提供することを示すことです。
このアプローチでは,これらの難易度を,コントラスト学習目標に直接対応マップを追加することで取り入れる。
本稿では,vgg-ss および soundnet-flickr テストセットにおける提案手法の有効性を実証し,最先端手法に好適な性能を示す。
関連論文リスト
- Enhancing Sound Source Localization via False Negative Elimination [58.87973081084927]
音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。
印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。
本稿では,2つの個別学習方式を取り入れた新しい音声視覚学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T11:24:51Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning [39.890616126301204]
偽陰性サンプルによるトレーニングを誤解させる問題を軽減するために,False Negative Aware Contrastive (FNAC) という新たな学習戦略を提案する。
FNACはFlickr-SoundNet、VGG-Sound、AVSBenchで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-20T17:41:11Z) - Contrastive pretraining for semantic segmentation is robust to noisy
positive pairs [0.0]
対照的学習のドメイン固有の変種は、2つの異なる画像から正のペアを構成することができる。
下流のセマンティックセグメンテーションはノイズの多いペアに対して堅牢か、あるいはそれらから恩恵を受けるかのどちらかである。
論文 参考訳(メタデータ) (2022-11-24T18:59:01Z) - MarginNCE: Robust Sound Localization with a Negative Margin [23.908770938403503]
本研究の目的は,自己教師型アプローチによる視覚シーンにおける音源のローカライズである。
コントラスト学習において、より厳密な決定境界を用いることで、音源定位における雑音対応の効果を軽減できることを示す。
論文 参考訳(メタデータ) (2022-11-03T16:44:14Z) - Self-Supervised Predictive Learning: A Negative-Free Method for Sound
Source Localization in Visual Scenes [91.59435809457659]
自己監督予測学習(英: Self-Supervised Predictive Learning, SSPL)は、音像定位法である。
SSPLはSoundNet-Flickrの8.6% cIoUと3.4% AUCの大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-03-25T01:42:42Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Audio-Visual Instance Discrimination with Cross-Modal Agreement [90.95132499006498]
本稿では,映像と音声から音声・視覚表現を学習するための自己教師型学習手法を提案する。
モーダル内識別よりも、モーダル間識別を最適化することが、ビデオやオーディオから優れた表現を学ぶ上で重要であることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。